这里在分析一下guset内部对于开启mergeable接收会有什么影响,顺便分析一下开启GUEST_GSO/GUEST_TSO时,guset内部的接收流程。
首先我们从vhost-user,发送端分析一下,两种情况是如何更新used->ring的。
在reserve_avail_buf_mergeable(dpdk代码)函数中有一下逻辑:
/*fill_vec_buf的作用是找一个desc chain,用来存放mbuf,然后buf_vec记录这些desc的信息*/ if (unlikely(fill_vec_buf(dev, vq, cur_idx, &vec_idx, buf_vec, &head_idx, &len) < 0)) return -1; len = RTE_MIN(len, size); update_shadow_used_ring(vq, head_idx, len);这里我们在“vhost_user mergeable特性”中已经分析过,fill_vec_buf是遍历当前desc chain,然后将这个chain的信息记录在buf_vec中,同时len中返回的是这个chain能存放的数据长度。
在update_shadow_used_ring中会将这个长度赋值给vq->shadow_used_ring[i].len,如下:
static inline void __attribute__((always_inline)) update_shadow_used_ring(struct vhost_virtqueue *vq, uint16_t desc_idx, uint16_t len) { uint16_t i = vq->shadow_used_idx++; vq->shadow_used_ring[i].id = desc_idx; vq->shadow_used_ring[i].len = len; }最后在flush_shadow_used_ring中vq->shadow_used_ring[i].len最终被赋值给vq->used->ring[i].len。也就是vq->used->ring[i].len存放的是一个chain的长度。
这种情况vhost_user后端不会去特殊处理,和普通报文一样。在virtio_dev_rx的处理逻辑中有如下代码:
for (i = 0; i < count; i++) { used_idx = (start_idx + i) & (vq->size - 1); desc_indexes[i] = vq->avail->ring[used_idx]; vq->used->ring[used_idx].id = desc_indexes[i]; /* vq->used->ring[used_idx].len 存放的是整个数据包长加上virtio header的长度*/ vq->used->ring[used_idx].len = pkts[i]->pkt_len + dev->vhost_hlen; vhost_log_used_vring(dev, vq, offsetof(struct vring_used, ring[used_idx]), sizeof(vq->used->ring[used_idx])); }这里vq->used->ring[used_idx].len 存放的是整个数据包长加上virtio header的长度,因为在非mergeable情况,一个数据包要么被一个chain装完,要么丢弃,所以只有发送成功,就不存在一个chain只装了部分数据的情况。
下面我们再看guset接收端代码,就kernel(3.10)的virtio_net代码。以下是guset的收包逻辑:
我们只看和我们分析有关的逻辑。首先调用virtqueue_get_buf从队列中取出一个mbuf,并返回一个长度len。
void *virtqueue_get_buf(struct virtqueue *_vq, unsigned int *len) { struct vring_virtqueue *vq = to_vvq(_vq); void *ret; unsigned int i; u16 last_used; /*……*/ virtio_rmb(vq->weak_barriers); /*获取本次要是有的used_elem数组index*/ last_used = (vq->last_used_idx & (vq->vring.num - 1)); i = vq->vring.used->ring[last_used].id; /*本次要接受skb对应的data下标,也是skb对应第一个desc的index*/ *len = vq->vring.used->ring[last_used].len;/*本次要接受skb的长度*/ /* detach_buf clears data, so grab it now. */ /*取出要接受的skb*/ ret = vq->data[i]; /*释放skb对应的desc chain*/ detach_buf(vq, i); vq->last_used_idx++; /* If we expect an interrupt for the next entry, tell host * by writing event index and flush out the write before * the read in the next get_buf call. */ if (!(vq->vring.avail->flags & VRING_AVAIL_F_NO_INTERRUPT)) { vring_used_event(&vq->vring) = vq->last_used_idx; virtio_mb(vq->weak_barriers); } END_USE(vq); return ret; }这里注意以下几点:
返回的len存放的是vq->vring.used->ring[last_used].len中的值,上面我们分析过,在mergeable情况下这是一个chain的长度(如果数据包的长度小于chain能装的数据长度,则为数据包的长度+virtio header),在GUEST_TSO*的情况,这是一个数据包的长度+virtio header;detach_buf 会释放当前desc chain,而不仅是一个desc,因为无论那种情况,这个chain中的数据再之后都会被取出,可以归还给后端了。如果mergeable开启,则vi->mergeable_rx_bufs会被置位,如果GUEST_TSO* 被打开,则 vi->big_packets会被置位。所以分析两种情况的接收处理就是看相应的调用函数,即receive_mergeable和receive_big。在分析这两个函数前,首先来看receive_buf的后半部分,根据后端填入virtio_net_hdr中的信息,设置gso(这里用于收方向,即gro)的相关字段。 所以要想guset能够接收大包(LRO)功能不但需要开启相关flag(GUEST_TSO*或mergeable),还依赖后端对virtio header的设置,如果后端处理了切割大包逻辑,以链表形式给前端,并设置相应virtio header,则guset就可以不用再分片,否则如果后端没有处理分片,仅仅把大包发给guset,则guset还需要进行GRO处理。 下面分析
可以看出mergeable的情况,由于一个数据包可能使用多个chain,则会对每个chain在此调用virtqueue_get_buf,获取对应page(mergeable的情况每个chain的长度为1,对应的也是一个page),然后通过set_skb_frag将之后的每个chain(desc)对应的page加入首个skb的skb_shinfo(skb)->frags[i]中。所以mergeable情况收到的大包,会有skb_shinfo(skb)->frags[],其对应的每个desc对应skb_shinfo(skb)->frags[]的一个page。下面看receive_big。
直接调用page_to_skb,这个在receive_mergeable中也有调用。
从上面的过程总结一下:当开启GUEST_TSO*时,guest收大包会尽可能的填充skb的线性区,剩余数据填充skb_shinfo(skb)->frags[],而对于mergeable由于只有第一个chain(也就是一个desc)对应的page会填充skb线性区,其他数据都在skb_shinfo(skb)->frags[],所以mergeable可能会有更多frags。
另外注意一点,当mergeable和GUEST_TSO*同时开启时,由于guest是优先判断mergeable的,所以就会走mergeable逻辑。
在实现LRO时,建议使用mergeable特性,因为如果使用GUEST_TSO*,则接收小包也会是由长为17的desc chain,这会造成浪费。
原文链接:http://blog.chinaunix.net/uid-8574039-id-5826459.html