DPDK 原理

DPDK 入门

DPDK旁路原理

原来内核协议栈的方式数据是从 网卡-->驱动-->协议栈-->socket接口-->业务

而DPDK的方式是基于UIO（Userspace I/O）旁路数据。数据从 网卡-->DPDK轮询模式-->DPDK基础库-->业务

DPDK的基石UIO

为了让驱动运行在用户态，linux提供UIO机制，使用UIO可以通过read感知中断，通过mmap实现核网卡的通讯

UIO原理

要开发用户态驱动有几个步骤：

开发运行在内核的UIO模块，因为硬中断只能在内核处理
通过/dev/uioX读取中断
通过mmap和外设共享内存

DKDP核心优化

DPDK的UIO驱动屏蔽了硬件发出的中断，然后在用户态采用主动轮训的方式，这种模式被称为PMD（Poll Mode Driver）

UIO 旁路了内核，主动轮训去掉硬中断，DPDK从而可以在用户态做收发包处理。带来zero copy，无系统调用的好处，同步处理减少上下文切换带来的Cache MIss。

运行在PMD的CORE会处于CPU100%的状态。

网络空闲时CPU 长期空转，会带来能耗问题。所以，DPDK推出interrupt DPDK模式。

interrupt DPDK：

DPDK的高性能代码实现

1. 采用HugePage减少TLB Miss

默认下Linux采用4KB为一页，页越小内存越大，页表的开销越大，页表的内存占用也越大。CPU有TLB（Translation Lookaside Buffer）成本高所以一般就只能存放几百到上千个页表项。如果进程要使用64G内存，则64G/4KB=16000000（一千六百万）页，每页在页表项中占用16000000 * 4B=62MB。如果用HugePage采用2MB作为一页，只需64G/2MB=2000，数量不在同个级别。

而DPDK采用HugePage，在x86-64下支持2MB、1GB的页大小，几何级的降低了页表项的大小，从而减少TLB-Miss。并提供了内存池（Mempool）、MBuf、无锁环（Ring）、Bitmap等基础库。根据我们的实践，在数据平面（Data Plane）频繁的内存分配释放，必须使用内存池，不能直接使用rte_malloc，DPDK的内存分配实现非常简陋，不如ptmalloc。

2. SNA（Shared-nothing Architecture）

软件架构去中心化，尽量避免全局共享，带来全局竞争，失去横向扩展的能力。NUMA体系下不跨Node远程使用内存。

3. SIMD（Single Instruction Multiple Data）

从最早的mmx/sse到最新的avx2，SIMD的能力一直在增强。DPDK采用批量同时处理多个包，再用向量编程，一个周期内对所有包进行处理。比如，memcpy就使用SIMD来提高速度。

SIMD在游戏后台比较常见，但是其他业务如果有类似批量处理的场景，要提高性能，也可看看能否满足。

4. 不使用慢速API

这里需要重新定义一下慢速API，比如说gettimeofday，虽然在64位下通过vDSO已经不需要陷入内核态，只是一个纯内存访问，每秒也能达到几千万的级别。但是，不要忘记了我们在10GE下，每秒的处理能力就要达到几千万。所以即使是gettimeofday也属于慢速API。DPDK提供Cycles接口，例如rte_get_tsc_cycles接口，基于HPET或TSC实现。

posted @ 2022-04-10 10:38 心亘久阅读(803) 评论(0) 收藏举报

刷新页面返回顶部

zhaodejin