[ DPU / SmartNIC/ 网卡 ]系统级的测试验证

开局一张图,其他慢慢来编

信雅纳DPU测试解决方案荣获DPU峰会“匠芯技术奖”
信雅纳DPU测试解决方案荣获第三届DPU峰会的“匠芯技术奖”

 看完这张,小编再送一张:::

信雅纳DPU测试解决方案荣获DPU峰会“匠芯技术奖”奖杯

网卡进化

更智能的加速卡SmartNIC/DPU 

例如,将部分网络协议处理的功能卸载到 DPU 网卡,计算(服务
器)不再分资源来处理这些网络数据协议,从而实现一定程度的网络与计算解耦;
把存储中的缓存、加密、去冗余、压缩、纠删码和 RAID 等功能从主机端的 CPU 卸载到发
起(Initiator)和目标(Target)侧的 DPU,从而实现存储与计算的解耦。

做加法与做减法的平衡

网卡做为服务器上抛数据到交换机的接口,上面的交换机端口从10/25G演变到支持56/112G的200/400/800G端口,加之虚拟化的高速发展优化,CPU资源变得越来越昂贵了(产品核心的单价是下来了,但因为虚拟化的存在,将物理性能压榨到了几乎极限,使得CPU算力资源挪去做中断调度就显得很昂贵)。

网卡作为一个夹在交换机与服务器的设备,就琢磨着能不能从交换机的一些功能挪在网卡上来实现,并将服务器的一些功能挪在网卡上来实现,并憧憬着能够在同一套交互语言下对三者进行无缝的管理

  • 网卡干点交换机的选路的活,干点负载均衡的活
  • 网卡减少些CPU的中断,干点CPU的活
  • 网卡带点视频压缩算法加速,干点CPU的活
  • 网卡增加些信息上报,可视化性能提升,减轻些运维的活
  • ... ...

更高速率带宽的网卡

单个物理端口能力的Duang Duang Duang,... 提升

  • 1G/10G
  • 25G
  • 50G(2x25G ),BASE-SR2/LR2, 基于28G NRZ SERDES
  • 50G(1x50G),BASE-SR1/LR1, 基于56G PAM4 SERDES
  • 100G(4x25G ),BASE-SR4/LR4, 基于28G NRZ SERDES
  • 100G(2x50G),BASE-SR2/LR2, 基于56G PAM4 SERDES
  • 200G(2x100G),BASE-SR2/LR2, 基于112G PAM4 SERDES
  • 200G(8x25G),BASE-SR8/LR8, 基于28G NRZ SERDES

如何评测DPU/SmartNIC,专家如何说?

放在中国科学研究院的白皮书截图,参考这个来吧 

来源: 专用数据处理器(DPU)性能基准评测方法与实现,
中国科学院计算技术研究所/中科驭数,鄢贵海等

信雅纳厂商的一揽子解决方案,系统级测试验证DPU/SmartNIC

测试1:Layer23网络基础性能验证

黑盒测试

执行标准“往死里打”

通过信雅纳的测试工具往SmartNIC/DPU系统不停刷写数据,看看系统会出现什么故障,寄存器会不会被“打死”

白盒测试

执行标准“能接收什么就发什么”

针对具体的业务模型进行特定报文数据帧的发送,将背板带宽的极限打满,比如评估在极限高负荷的情况下,整片板子的功耗是否符合预期,散热情况是否异常等

网络性能测试

测试OVS性能,吞吐量/延迟/抖动/丢包

存储性能测试

RDMA性能,QP能力,NVMe-oF性能(纠错,去冗余),基于RoCE v2来实现的,不支持IB网络

计算性能测试

跟计算资源相关的CPU内存资源的释放,开启DPU的相关卸载加速情况下,对服务器资源的释放分担能力,做长时间的监控对比

尤其是TCP/IP协议栈的加速,对视频流的压缩解码的加速,对加密流量的加解密加速

安全性能测试

对非法报文的处理能力(可以是DDoS,其他模糊攻击流量)

MAC地址洪泛冲击DPU的地址表项

Payload篡改而校验位正常的非法报文等

RMDA/RoCE测试

RoCE v2, NVMe-oF特性支持

读写IOPS,冗余处理机制,持久化,吞吐量MBps,写入延迟,读取延迟

测试2:Layer47业务性能验证

并发性能测试

基于TCP的握手和挥手动作的并发,最大会话数目CC,最大的新建连接数CPS 

可验证租户的大量上线业务

基于HTTP的在线保持业务

MAC/IP/五元组地址流表规模和流表的维护能力

ACL规则对并发性能的限制

安全性能测试

流表能力

ACL规则的生效情况

对非法业务报文的过滤和告警上报

可管理,可视化能力

测试3:负面损伤压力测试

物理链路层错误仿真

模拟PCS/PMA的错误

模拟Link flap链路的闪断

现网中会出现的物理链路层错误

业务报文错误仿真

基于Packet/Frame的损伤,针对特定的报文进行损伤

如对PTP时钟报文进行损伤

构建长尾现象

测试4:业务部署模型再确认

高达100Gbps的全线速抓包工具

探针抓包,持久化在本地,后续调出对比分析

相关的测试资源

Valkyrie硬件平台

  • ValkyrieBay
  • ValkyrieCompact
  • Odin-1/10G
  • Loki-100G
  • Thor-400G
  • Freya-800G

Vulcan硬件平台

  • VulcanBay
  • VulcanCompact
  • Vul-10G
  • Vul-25G
  • Vul-100G
  • Vul-VE

Chimera硬件平台

  • ChimeraBay
  • ChimeraCompact
  • Chimera-100G
  • Chimera-25G

Sirsus硬件平台

  • SirsusBay
  • SirsusCompact
  • Sirs-40G
  • Sirs-100G

配套软件及API二次开发

  • CLI-API(TCL,Perl)
  • HLAPI(C#,C++,Python)
  • XOA(Xena Open API)

路标/Roadmap

  • RDMA suits
  • NVMe-oF toolkits
posted @ 2023-08-28 12:38  Evan_丹麦信雅纳网络  阅读(99)  评论(0编辑  收藏  举报  来源