DPU市场与技术分析
DPU市场与技术分析
DPU全球格局,国内5家崛起(2023)
DPU 行业市场集中度较高。根据头豹研究院数据,近年来国内 DPU 市场中,国际三大巨头英伟达,博通,Intel 的份额分别达到 55%、36%、9%。但国内DPU厂商也逐渐崛起,重点介绍星云智联、大禹智芯、云脉芯联、芯启源和中科驭数。
国际上,Nvidia、Intel、Xilinx、Marvell、Broadcom、Pensando、Fungible、Amazon、Microsoft 等多家厂商在近 2-5 年内均有 DPU 或相似架构产品生产,较国内相对较早。国内厂商中,华为,阿里,百度,腾讯也在近几年针对自身服务器进行自研与外购 DPU,针对的主要功能在于数据,存储与安全方面。
1、英伟达:具备先发优势,其 BlueField 系列芯片已到达第三代
BlueField 2 搭载 8 颗 64 bit 的 ARM A72 CPU 内核,2VLIM 加速器和ConnectX6Dx 智能网卡,可以提供双端口最高 100Gbps 和单端口 200Gbps 的网络连接。Blue Field 可以快速有效地捕获、分析、分类、管理和存储海量数据,实现 RDMA/RoCE、DPU Direct、弹性存储、分块存储加密和恶意外部应用自动检测等功能,从而实现单颗 DPU 芯片对 125 个 CPU 内核的释放。BlueField2X在此基础上集成了 2021 年 5 月发布的 7nm 级 Ampere 架构。
GPU 和第三代 Tensor 内核,可通过 AI 加速数据中心的安全、网络连接、数据存储等任务。此外,英伟达还发布了面向开发者的平台 DOCA SDK,通过集成Ampere GPU 和 BlueField2 DPU 优化 EGXAI 平台,向流媒体、智能驾驶、医疗等终端场景扩展。BlueField 3 已在 2022 年发布。
根据深科技数据,英伟达预计 BlueField4 将于 2023 年发布,预计性能可提升 600 倍,达到 75/400TOPS,400Gbps,吞吐量有望较 BlueField2 提升 600倍。英伟达希望凭借 GPU 和 Mellanox 智能网卡技术壁垒的协同效应,再辅以Arm 处理器整合协同后的性能提升,有望进一步抗衡英特尔/AMD 的 x86CPU 体系。
2、星云智联:首款DPU产品NebulaX D1055AS发布
根据《2021-2022 年中国人工智能创投数据报告》数据,星云智联创立于 2021年 3 月,汇聚了来自硅谷、以色列、加拿大等地 ICT 领域顶尖专家,专注于数据中心基础互联通信架构和 DPU 芯片研发,致力于构建数字世界算力的智能连接和开放生态,让云计算和数据中心成为构建未来数字社会的坚实基础。根据星云智联官方数据,星云智联首款 DPU 产品 NebulaX D1055AS 已于2021 年 7 月发布,该产品是国内首款全硬加速、超强转发、极简运维的 DPU 产品。NebulaX D1055AS 聚焦云计算的裸金属、虚机、容器等场景,实现网络与存储卸载与加速,提升业务性能,节省主机 CPU,简化 IaaS 运维。可广泛用于互联网、公有云、运营商、政企与行业的云基础设施。产品为 PCIe 插卡形态,安装于标准服务器内运行,产品功能包括数据面和管控面两部分。
根据星云智联官方数据,管控面采用通用的 CPU+Linux 架构,其中 DPU OS上运行了 OVS 控制面、弹性块存储客户端 EBS-Client、管理监控等软件,支持带外管理网口,通过管理网络对接云平台。这个架构拥有极好的软件生态兼容性,用户可按需安装部署相应的管理和应用软件,比如 OpenStack Agent,K8S Kubelet等 IaaS/PaaS 应用,也可移植现有云基础设施中的软件到 DPU OS 上运行。这种开放的管控面架构,简化了 DPU 与用户云管控平台集成,加速定制化 DPU 新功能开发上线。
3、大禹智芯:Paratus 2.0 具备强大的软件开放性
Paratus 1.0 作为大禹智芯 DPU 的第一条产品线产品,采用 ARM SoC 作为主处理单元,提供多个 10Gbps/25Gbps 的业务网络接口,同时为了方便用户管理,单独设置了 RJ45 管理口。Paratus 2.0 作为大禹智芯 DPU 的第二条产品线产品,已于 2022 年 10 月发布,采用 ARM SoC + FPGA 的硬件架构,在 Paratus 1.0 产品基础上,利用 FPGA对可固化逻辑的数据包实现高性能转发,提供多个 10G/25G、100G 的业务网络接口。大禹智芯 DPU 产品 Paratus 2.0 具备强大的软件开放性,支持 VirtIO 来增强虚拟化环境下的适配性,能够灵活呈现大规模主机侧功能,可以实现包括 OVS 全卸载、存储客户端(Storage Initiator)的全卸载及 NVMe 模拟等多种功能,还能为存储服务端(Storage Target)提供数据处理服务加速。此外,Paratus 2.0的自研高性能网络传输协议可进一步支持 RDMA 应用;大禹智芯充分考虑了用户使用管理需求,在 Paratus 2.0 系统产品中还提供了云管平台对接的插件、独立的BMC 模块,使用户能方便地实现云环境下业务的自动化部署、带外管理能力及与服务器更好的联动,达到 Paratus 2.0 在实际使用中与用户管控平台的有机结合。
4、云脉芯联:打造自主研发多场景 RDMA DPU产品
2022 年 5 月 31 日,云脉芯联正式发布自主研发的国内首款多场景 RDMA 智能网卡(DPU)产品——xFusion50。xFusion50 是云脉芯联成功自主研发的第一款产品,也是国内首款实现包括支持端到端拥塞控制完整 RDMA 功能的 DPU 产品,xFusion50 基于硬件实现的可编程拥塞控制算法能够有效避免网络拥塞,充分发挥 RDMA 技术的低延迟和高性能,支持云计算、高性能计算、AI、存储集群全场景部署。xFusion50 产品具有以下核心亮点:第一,支持可编程拥塞控制算法,可编程拥塞控制算法是实现端到端无损网络的关键技术;还可以通过开放可编程的底层网络接口,可根据客户的组网特点和上层业务的需求,灵活支持多种拥塞控制算法,最大化业务的流量吞吐。第二,通过自主研发 HyperDirect 技术支持 GPU Direct RDMA 为跨计算节点的 GPU 实现远程内存直接访问,跳过 CPU 以降低时延、提升带宽,提升分布式异构算力集群的整体效能。第三,支持网络/存储全场景卸载加速,支持 vSwitch 全卸载,实现云上 VPC网络全功能;支持存储卸载,对接分布式存储 NVMe-oF(TCP/RDMA),充分释放宿主机 CPU 资源。并通过支持 VirtIO 实现弹性网络和弹性存储,满足云上用户无缝迁移和快速恢复的业务诉求。
5、芯启源:自主知识产权,可扩展Chiplet 等方向
芯启源具有完全自主知识产权的 DPU 芯片。芯启源 DPU 较传统智能网卡提供了更大的处理能力、更强的灵活性、可编程数据包处理、可扩展 Chiplet(小芯片)结构等特性。采用 NP-SoC 模式进行芯片设计,通用 ARM 架构结合高度优化面向数据包的 NP 芯片(RISC-V 内核)、多线程的处理模式,使其可以达到 ASIC 固化芯片的数据处理能力,同时考虑到了全量可编程、灵活可扩展的属性,用以支持400Gbps 及以上的性能目标、低功率且具有成本效益等。芯启源 DPU 架构中采用的 Chiplet(小芯片)技术是一种全新的芯片设计方式,也是业内众多企业正在引入的关键芯片技术。Chiplet 将满足特定功能的 Die(裸片)通过 Die-To-Die 内部互联技术实现多个模块芯片与底层基础芯片封装在一起,形成一个系统芯片。Chiplet 技术将原本一块复杂的 SoC 芯片分解为芯粒,类似模块化设计,有利于缩短产品商用时间和后续产品的迭代,同时通过支持与第三方芯片的 Die-To-Die 互联,还可以集成更多的特定专业领域的芯片。在性能和功能丰富度有飞跃式提升外,也为芯启源的客户提供更多业务场景的支持能力。
6、中科驭数:目前已开始第三代 DPU 芯片研发
中科驭数基于自研敏捷异构 KPU 芯片架构以及 DPU 软件开发平台 HADOS,公司自主研发了业界首颗融合高性能网络与数据库一体化加速功能的 DPU芯片和标准加速卡系列产品,可广泛应用于超低延迟网络、大数据处理、5G 边缘计算、高速存储等场景,助力算力成为数字时代的新生产力。在 DPU 产品的研发迭代方面,中科驭数于 2019 年流片了第一代 DPU 芯片K1,第二代 DPU 芯片 K2 也于 2022 年初成功投片,目前已开始第三代 DPU 芯片 K2 Pro 的研发工作;2021 年 9 月,中科驭数首发 DPU 加速卡产品,其时延达到业界领先的 1.2 微秒。另外也有 DPU 存储加速卡、DPU 数据计算加速卡等产品和解决方案在研发进程中。在产品核心技术特色方面,中科驭数的 DPU 芯片创新性地采用软件定义加速器技术路线,实现了软硬协同的 DPU 设计方案。具体创新点如下:高效的异构众核 DPU 架构,基于软件定义加速器路线,研发了异构众核 DPU芯片设计方法,解决了多核互联、计算调度、指令控制等核心问题。
超高带宽网络协议处理,研发专用网络协议处理核和大数据分析处理核,解决了软件解析网络包协议解析和数据处理的瓶颈,大大提升服务器间通信效率,提升数据中心水平扩展能力。统一的虚拟化硬件平台,针对数据中心网络、计算、存储融合的虚拟化需求,研究统一高效的硬件设备虚拟化架构,解决现有方案单一虚拟化功能的窘境(仅支持网络虚拟化),充分释放 DPU 各类资源能力,更高效支撑复杂上层应用。统一的 DPU 软件开发框架 HADOS,解决现有编程框架碎片化的问题,使得应用部署更加简单高效。
Hello DPU,Goodbye CPU!
这场革命始于SmartNIC,而DPU则是它的2.0版本。 “随着DPU 越来越多地出现在大众视野中,期待未来可以看到加密/解密、防火墙、数据包检查、路由、存储网络等功能由 DPU 处理,”Turner 预测。
SmartNIC——初代DPU
GPU的蓬勃发展源于x86 系列处理器的局限性,x86 处理器更适合处理通用型任务,但对于特定工作来说它们要比专用芯片慢得多。GPU最开始被用在游戏机中,后来被发现还很适合用于AI系统。 与 GPU 一样,SmartNIC最开始只是被用来从 CPU 中卸载一些网络功能,实现网络加速。现在已经被开发出了很多新的使用场景。 但 SmartNIC 并不是一个统一的、一刀切的类别。Delloro Group 的分析师 Baron Fung 解释说,随着网络变得更快,SmartNIC 需要承载更多的用户流量。网络供应商创建了一种使用专门的 ASIC 来卸载网络功能的“性能”网卡。但SmartNIC 有所不同。 SmartNIC 在性能网卡上又增加了另一层性能。SmartNIC 是完全可编程设备,具有自己的处理器、操作系统、集成内存和网络结构。它就像服务器中的服务器,从主机 CPU 提供不同范围的卸载服务。 目前大多数智能设备都是AWS、微软、阿里等云厂商专有的,他们在自己的数据中心构建自己的 SmartNIC,但随着越来越多创新产品和软件开发框架的发布,其他市场也逐渐开始采用SmartNIC 。 有预测显示,SmartNIC 在未来几年将以每年 3% 的速度增长,但在整个市场来看仍只是占据一小部分,因为SmartNIC 价格昂贵,目前SmartNIC 的价格是标准网卡的三到五倍。这就需要证明高成本的合理性。 在一般网络应用中,SmartNIC 可以提高网络效率,同时因为智能设备可以通过软件进行优化,采用SmartNIC 还能够延长基础设施的使用寿命,这实现了一种相对平衡。 随着SmartNIC 的发展,市场上又出现了它的进阶版——DPU。不同的厂商给它定义了不同的名称和功能,比如英特尔的叫IPU,阿里云的叫CIPU。
DPU的到来
DPU一词最早由Juniper创始人Pradeep
Sindhu创建的硅谷创业公司Fungible提出。 “你可以使用通用 x86 定义一个非常简单的服务器来进行通用处理,然后放入一个 DPU 来为你完成所有其余的存储工作”,Fungible 首席执行官
Eric Hayes表示。 数据无处不在,每个人都在收集和存储数据。真正的问题在于如何处理所有这些数据? CPU 和 GPU 的设计初衷并不是为了完成移动和处理数据的任务,所以它们处理这类任务的效率非常低。 Hayes 认为 SmartNIC 与DPU 之间存在明显的区别:“DPU 是为数据处理而设计的,它的出现就是为了处理 x86 和 GPU 无法高效处理的数据。” 根据 Hayes 的说法,早期的 SmartNIC “只是 Arm 或
x86 CPU、FPGA 和硬连线、可配置管道的不同组合。他们只能用有限的性能来换取灵活性。” 相比之下,DPU 架构实现了灵活性和性能兼具。 那么DPU 究竟有什么作用呢?
加速网络
首先是加速网络。DPU 能够让网络处理速度更快。由于软件定义网络 (SDN) 的出现,网络越来越多地以软件形式实现。SDN网络通过在软件中处理它们的功能使系统更加灵活,但是该软件在通用处理器上运行时效率极低。
SmartNIC 采取了一些措施来改进 SDN 功能,但还没有达到 DPU 的性能水平。除了SDN,DPU还将在更智能的网络生态系统中发挥重要作用,例如5G OpenRAN。
重写存储
DPU可以为以数据为中心的时代重建存储,通过创建TCP/IP上运行的内存访问协议,并将其卸载,从而创建“内联计算存储”。
NVMe(non-volatile memory express) 是一种用于访问闪存的接口,通常由 PCI express 总线连接。通过 TCP/IP 运行 NVMe,并将整个堆栈放在 DPU 上,将整个内存访问从CPU上卸载,这意味着闪存不再需要直接连接到CPU。 通过 TCP 执行 NVMe 的目的是能够从服务器中取出所有闪存,可以使用通用 x86 定义一个非常简单的服务器来进行通用处理,然后放入一个 DPU 来完成所有其余的存储工作。 就 CPU 而言,DPU 看起来像一个存储设备,卸载了通常必须在通用处理器上运行的所有驱动程序。
加速 GPU
一个基本的 x86 处理器可以管理很多 GPU,但这其中也存在一个瓶颈,因为数据必须从 GPU、PCI 接口传输到 CPU。
将通信任务交给 DPU 可以减少对 GPU-PCI
接口的依赖。在多用户环境中,这比将一组GPU专用于特定的x86处理器更高效,价格也便宜得多。 DPU 的最后一个作用是安全性。DPU有加速加密和解密的能力。
DPU需要标准化吗?
目前DPU的采用尚处于起步阶段,每个DPU厂商都有自己的解决方案,标准化想要推进十分困难。 但如果DPU 要覆盖更多客户,就必须出现一个更加标准化的生态系统。 预计约有三分之一的 DPU 市场将集中在较小的提供商和私有数据中心中,这些小公司没有像云巨头厂商那样有大量的工程师,标准化有助于降低边际成本,创造规模效益,实现创新技术的价值变现。
Hello DPU,Goodbye CPU!
很多人都谈到了DPU的优势之一是降本增效,但是实际上并没有能够拿出有效的数据佐证这一观点。近日,英伟达使用其 BlueField-2 E 系列 DPU进行了一些测试,该 DPU 具有一对 100 Gb/sec 端口,并采用同样具有一对 100 Gb/sec 端口的常规 SmartNIC 作为对照组。 英伟达存储营销总监John Kim展示了将服务器上运行的hypervisor的Open vSwitch (OVS)卸载到BlueField-2 DPU的效果,以及将爱立信的用户平面功能(UPF)工作负载从5G基站中的服务器CPU卸载到机箱中运行的DPU的效果。在每一个案例中,英伟达都计算了在10,000台机器的集群中为这些负载卸载添加DPU的效果,并且只计算了在加州电价下节省的电力。在这两种情况下,英伟达计算服务器上有多少个内核在运行这两种工作负载,消耗了多少瓦,然后在DPU上运行它需要多少瓦,然后计算在三年内节省的电力和成本。 以下是 OVS 卸载的性能提升和节能数据:
这个基准测试是在一台戴尔PowerEdge R740服务器上运行的,该服务器使用一对英特尔“Cascade Lake”至强SP-6248 Gold处理器,每个处理器有20个内核,运行在2.5 GHz,一个BlueField-2 DPU带有一对25 Gb/秒以太网端口。在服务器上运行OVS需要18个线程和9个内核(总共80个线程和40个内核),这占计算机固有计算能力的22.5%,也就是说理论上整个服务器150瓦CPU功率和实际432瓦CPU功率相同。通过将OVS工作负载转移到DPU, OVS在运行时只消耗305瓦,如果将节省的电能分散到10,000个节点上,那么三年节省的成本将达到500万美元。 重要的是,OVS 交换机的吞吐量从 20 Gb/秒提升到 49 Gb/秒,接近 DPU 上两个端口的峰值理论性能。
DPU 最关键的作用是在运行应用程序的服务器之间以及从服务器到访问应用程序和数据的客户端设备之间传输数据时对数据进行加密,因此英伟达创建了一个IPSec加密场景,用于加密应用程序的服务器端和客户端,以及将节省多少电力。
这组测试在配备一对英特尔“Ice Lake”至强 SP-830 处理器的服务器上运行,该处理器具有 40 个内核,每个内核以 2.3 GHzm 运行,带有一个 BlueField-2 卡,具有一对 100 GB/秒的以太网端口和 16 GB自带内存。在此设置中,服务器端 IPSec 加密和解密消耗 6 个物理内核(占内核的 7.5%),而客户端需要 20 个内核(占 25%)。抛开CPU 和运行 IPSec 的 DPU 之间是否存在性能差异,这个测试计算了将负载卸载到 DPU 所节省的电力,三年内通过 10,000 个节点可以节省 1420 万美元.
从这个比较中可以看出,为 10,000 个节点的每一个节点添加 BlueField-2 DPU 可以减少支持 IPSec 加密和解密工作负载所需的节点数量。根据英伟达的计算,服务器硬件的资本支出实际上降低了 2.4%,总体成本节省了 15%(这还没有考虑到性能差异、数据中心面积的节省以及管理的服务器的减少)。 就目前而言,为CPU减负是必然的。可以肯定地说,在未来的系统架构中,网络、存储访问、虚拟化工作负载和安全功能不会在 CPU 上完成。 DPU 将成为系统架构的中心,分配对计算和存储的访问权限,而CPU 则应该被称为具有庞大内存的串行处理单元。
参考文献链接
https://mp.weixin.qq.com/s/BJ5tStJMhw2uxm8acXFjHQ
https://mp.weixin.qq.com/s/O6FkQFKPjhk-w8Kb6jccoA