mbuf

www
mbuf结构体

TCP/IP详解第二卷实现主要讲的是BSD的协议栈实现。看协议栈代码,首先看的就是经典的mbuf结构了。原来觉得mbuf结构比较复杂,硬着头皮看了几天后,感觉思路上清晰了一些。于是准备写点东西把理解到的一点点先记下来,省得以后忘记了。
书上是以4.4BSDlite源代码为基础讲的。可以说是目前各个bsd发行版的基础。在此基础上,FreeBSD、NetBSD、OpenBSD做了稍许的改动。下面是lite版的mbuf声明代码:

/*
 * Mbufs are of a single size, MSIZE (machine/machparam.h), which
 * includes overhead. An mbuf may add a single "mbuf cluster" of size
 * MCLBYTES (also in machine/machparam.h), which has no additional overhead
 * and is used instead of the internal data area; this is done when
 * at least MINCLSIZE of data must be stored.
 */

#define MLEN (MSIZE - sizeof(struct m_hdr)) /* normal data len */
#define MHLEN (MLEN - sizeof(struct pkthdr)) /* data len w/pkthdr */
/* header at beginning of each mbuf: */
struct m_hdr {
        struct mbuf *mh_next; /* next buffer in chain */
        struct mbuf *mh_nextpkt; /* next chain in queue/record */
        caddr_t mh_data; /* location of data */
        int mh_len; /* amount of data in this mbuf */
        short mh_type; /* type of data in this mbuf */
        short mh_flags; /* flags; see below */
};
/* record/packet header in first mbuf of chain; valid if M_PKTHDR set */
struct pkthdr {
        struct ifnet *rcvif; /* rcv interface */
        int len; /* total packet length */
};
/* description of external storage mapped into mbuf, valid if M_EXT set */
struct m_ext {
        caddr_t ext_buf; /* start of buffer */
        void (*ext_free)(); /* free routine if not the usual */
        u_int ext_size; /* size of buffer, for ext_free */
};
struct mbuf {
        struct m_hdr m_hdr;
        union {
                struct {
                        struct pkthdr MH_pkthdr; /* M_PKTHDR set */
                        union {
                                struct m_ext MH_ext; /* M_EXT set */
                                char MH_databuf[MHLEN];
                        } MH_dat;
                } MH;
                char M_databuf[MLEN]; /* !M_PKTHDR, !M_EXT */
        } M_dat;
};

/* mbuf flags */
#define M_EXT           0x0001  /* has associated external storage */
#define M_PKTHDR        0x0002  /* start of record */
#define M_EOR           0x0004  /* end of record */


可以看到mbuf大体由两部分组成,m_hdr和M_dat。
M_dat是个联合体,使用其中哪个成员是由m_hdr.mh_flags来决定的。
  1. 如果mh_flags里没有M_EXT与M_PKTHDR,则表面此mbuf完全是用来存放数据的。总共可以存放MLEN字节的数据;
  2. 如果mh_flags里有M_EXT则表面此mbuf使用外部簇来存放数据;
  3. 如果mh_flags里有M_PKTHDR,则表面此mbuf是一个记录的起始mbuf,由于MH_pkthdr占用了部分空间总共只能存放MHLEN字节的数据;
  4. 如果mh_flags里既有M_PKTHDR又有M_EXT则表面此mbuf是起始mbuf,但是使用外部簇来存放数据。

我的批注: mbuf结构的大小总是为128字节,

 

2. 指针m_next把mbuf链接在一起,把一个分组形成一条mbuf链表

 

3. 指针m_nextpkt把多个分组链接成一个mbuf链表队列。在队列中的每个分组可以是一个单独的mbuf,也可以是一个mbuf链表。每个分组的第一个mbuf包含一个分组首部。

### DPDK中mbuf的使用方法 #### 1. mbuf 的定义与作用 `rte_mbuf` 是 DPDK 中的核心数据结构之一,用于描述网络数据包及其元信息。该结构体存储在网络内存池 `mempool` 中,并通过其字段来管理数据包的内容和属性[^2]。 以下是 `struct rte_mbuf` 的部分重要字段解释: - **`void *buf_addr;`**: 表示分配给当前 mbuf 缓冲区的虚拟地址。 - **`uint16_t data_off;`**: 数据相对于缓冲区起始位置的偏移量。 - **`uint32_t pkt_len;`**: 整个数据包长度(包括所有片段)。 - **`uint16_t data_len;`**: 当前段缓存中的实际数据大小。 - **`uint16_t buf_len;`**: 单个缓冲区的最大容量。 这些字段共同决定了如何操作和处理数据包内容以及其关联的信息。 #### 2. 直接与间接缓冲区的区别 直接缓冲区是指完全独立且自包含的缓冲区,而间接缓冲区则引用其他直接缓冲区中的数据。这种设计允许在多份副本间共享同一份底层数据,从而减少不必要的拷贝开销,在分片或重组场景下尤为有用[^3]。 #### 3. 常见 API 及其实现逻辑 为了方便开发者高效地操作 `rte_mbuf`,DPDK 提供了一系列实用宏函数: ##### (1)`rte_pktmbuf_mtod` 此宏用来提取指定类型的数据指针以便于后续访问具体负载区域内的有效载荷。例如: ```c char *payload = rte_pktmbuf_mtod(mbuf, char *); ``` 上述代码会将 `mbuf->buf_addr + mbuf->data_off` 转换成字符型指针并赋值给变量 `payload`,进而可以轻松读写其中所含有的原始二进制流[^4]。 ##### (2)`rte_cpu_to_be_16` 当涉及到跨平台通信或者协议栈交互时,字节顺序可能成为潜在障碍。为此引入了此类工具帮助完成必要的转换工作。比如下面的例子展示了怎样把短整形数值调整为标准的大端格式发送出去之前的形式: ```c uint16_t host_order_value = htons(0xABCD); uint16_t network_order_value = rte_cpu_to_be_16(host_order_value); ``` 这里先调用了系统的通用版本 `htons()` 函数然后再利用特定实现进一步封装确保兼容性良好。 #### 4. NUMA 支持下的优化考量 考虑到现代服务器通常采用非一致内存访问架构 (NUMA),即不同节点上的 CPU 对各自本地 RAM 访问速度远高于远程情况的事实,合理规划资源分布显得尤为重要。因此建议尽可能让同一线程始终绑定到固定物理核上运行的同时也要注意选取靠近对应计算单元所在的那块动态分配出来的连续空间作为基础载体承载临时产生的各类中间产物等等[^5]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值