从SmartNIC到DPU，拥挤的赛道上站满了高手

https://www.eet-china.com/mp/a70044.html

2021-08-16 08:00

不久前，戴伟立和周秀文夫妇重出半导体江湖，创立新公司Dream Big Semiconductor，主攻智能网卡(SmartNIC)和DPU市场的消息，一时间成为行业热议。在如此众多的“黑科技”面前，两人为何偏偏选中SmartNIC/DPU作为再次创业的方向?“热火烹油”、“蓄势待发”、“爆发前夜”这样的词汇，是否与当前市场的真实状况相吻合?本文将试图对此加以分析。
什么是SmartNIC?
普通网络接口卡(NIC)是基于专用集成电路(ASIC)设计的以太网控制器，定位于高效迁移服务器的网络数据包，通常包括不同程度的为优化性能而设计的传统卸载。而SmartNIC与它的根本区别在于，SmartNIC可以通过编程执行从优化流量到在恶意数据到达服务器之前识别和隔离它的任何操作，诸如远程直接内存访问、非易失性内存快速结构(NVMe-oF)、压缩、加密和网络虚拟化等任务对服务器内核持续的需求，降低了这些服务器内核支持应用程序的能力。更先进的SmartNIC甚至可以虚拟化网络存储，从而简化虚拟服务器和裸机服务器的配置。
市场研究机构Dell’Oro的数据显示，预计到2024年，SmartNIC市场规模将超过6亿美元，占全球以太网适配器市场的23%。而整体控制器和适配器市场将以7%的年复合增长率增长，其中25Gbps和100Gbps的销售将是主要增长驱动力。
之所以能够取得如此高的增长率，原因在于目前数据中心内部流量(也称横向流量)的年复合增长率都在25%以上，但与此同时，随着SDN的增加，云服务器会在CPU和软件中使用很多SDN功能，使得高达30%的数据中心计算资源被分配用于联网I/O处理云数据。
坦率地说，这个问题随着时间的推移只会越来越严重。
当前，以几何级数幅度增长的联网端口速度，远超摩尔定律和Dennard缩放比例定律(Dennard’s scaling)的计算周期速度，这种差距的存在使得服务器中所有的CPU资源都将遭到挤占，而无暇顾及应用级处理，降低了CPU利用率。如果是公有云的话，他们需要把这样的资源出售给客户来进行变现。但如果不能出售这些核心内容，云服务商就会赔钱，这是一个非常严峻的问题。

2019年，Futuriom针对来自中/美/英三国云计算(49%)、电信(26%)和企业IT领域(25%)的200多位专业人士，就如何“有效利用服务器和存储”进行了调研。当被问及“对提高数据中心性能的技术进行排名”时，得分最高的选项是“使用对处理器卸载和智能网卡(SmartNIC)等技术来提高网络效率”，得分最低的选项则是“部署更多的服务器”，而“提高虚拟机效率”和“虚拟化和共享闪存存储以更有效地使用它”，成为了最具吸引力的SmartNIC应用。值得关注的是，中国因其强烈认可SmartNIC优化存储网络的作用而在三个国家中脱颖而出。
CPU不能承受之重
据IDC统计，全球算力的需求每3.5个月就会翻一倍，远远超过了当前算力的增长速度。在此驱动下，全球计算、存储和网络基础设施也在发生根本转变，一些复杂的工作负载，在通用的CPU上不能很好的处理，因此为减轻CPU内核的负担，SmartNIC正在网络安全和网络互连协议方面逐渐取代CPU 。
亚马逊和微软这样的一级云服务提供商在很多年前就意识到了问题的严重性，纷纷选择卸载掉服务器的联网功能，并将这部分工作转移到SmartNIC上运行，以便释放出更多的CPU核，优化服务器利用率，降低联网成本。
例如亚马逊收购了一家名为Annapurna的初创企业，专门开发类似的器件和SmartNIC，并在2017年发布了AWS Nitro;微软此前也通过将FPGA集成到SmartNIC上去卸载服务器的联网功能，并实现了数以百万计规模的部署;VMware也已宣布了将SmartNIC集成到VMware Cloud Foundation中Project Monterey的项目;阿里云则在其神龙服务器核心组件MOC卡中应用了专用X-Dragon芯片，统一支持网络、I/O、存储和外设的虚拟化。
电信服务提供商则是另一大具有强劲增长潜力的市场，他们正考虑将SmartNIC从核心网集成到边缘网，为NFV和AI推断等应用提供服务。
芯片厂商方面，除了前文谈及的Dream Big Semiconductor外，还包括英特尔、博通、英伟达、赛灵思、Marvell、Netronome，以及Pensando、Fungible这样刚走出隐型模式，且“吸金”能力超强的初创企业。
不过，并非每一家公司都拥有足够的研发能力和人才储备去部署SmartNIC，因此目前有80%以上的云服务供应商尚未采用SmartNIC。相比之下，二、三级的厂商们就更加需要现成且方便的SmartNIC解决方案，无需自行开发，只需即插即用就可满足数据中心的卸载、存储和计算加速等需求。
从NIC到SmartNIC，需要几步?
简单来说，以下三种方法均有助于提升计算能力，使得普通的NIC变得智能：

Arm CPU核集成，有人称其为集群，有些人则称其为“网格”或“块”
定制网络处理器采用的流处理核(FPC)，通常是P4
现场可编程门阵列(FPGA)，可编程逻辑

为了理解SmartNIC与普通NIC的不同之处，我们可以通过深入了解全球知名企业的代表性SmartNIC产品，看看他们做出了哪些改进。
英特尔
英特尔在N3000 SmartNIC主板上使用了五颗芯片，包括48通道PEX8747 PCIe第三代交换机芯片、一对XL710以太网控制器和Arria 10 FPGA、以及用于管理FPGA的MAX 10 FPGA基板管理控制器(BMC)。这是一种典型的bump-in-the-wire架构，它支持FPGA在XL710之前进行数据包处理。英特尔的FPGA具有115万个可编程逻辑单元和两个4GB的DDR4存储器组，为处理SmartNIC任务提供了充足的空间。

赛灵思
即插即用型解决方案Alveo U25主要面向2级和3级云服务提供商、电信和私有云数据中心运营商，定位更强调“集网络、存储和计算加速为一体的”SmartNIC平台属性，而非通过配备强大的计算资源用以强化加速性能，去处理包括视频转码、语音翻译、数据库查询、电子交易、财务建模、图像压缩与识别在内的工作负载。

博通
博通NetXtreme-S BCM58800是一种单芯片SmartNIC解决方案，在板级生产方面的成本较低。然后，他们在集群配置中部署了主频为3GHz的8个Arm v8 A72核心，逻辑单元能够以高达90千兆/秒的速度卸载加密，同时卸载擦除编码和RAID等存储处理。最后，博通还采用了具有神秘色彩的TruFlow技术，这是一个可配置的流加速器，用于将常见的网络流过程转移到硬件中。

英伟达
被英伟达以69亿美元收购的Mellanox是最早进入SmartNIC领域的公司之一，其代表性解决方案BlueField-2芯片包含8个Arm Cortex-A72核心、两个VLIW加速引擎、以及网络适配器ConnectX-6 DX NIC，华硕、戴尔科技、技嘉、云达科技和超微已宣布将提供采用NVIDIA BlueField-2 DPU加速的服务器。

Marvell
Marvell从很早之前就开始做SmartNIC的研究，到2020年9月，Marvell的基于OCTEON的LiquidIO SmartNIC出货量就已达到100万个。LiquidIO III是最新的解决方案，结合了此前广泛部署的OCTEON TX2 DPU 和多达36个基于Arm V8的内核、5个x100G网络连接、多达2个PCI Express Gen 4x16主机接口和6个DDR4 3200控制器通道。甲骨文就是LiquidIO III 的首批客户之一。
升级DPU之后，一片混战
2020年10月，英伟达将基于Mellanox的SmartNIC方案命名为数据处理单元(Data Processing Units, DPU)，并将CPU、GPU、DPU称之为组成“未来计算的三大支柱”。
不过，需要指出的是，从SmartNIC变为DPU并非简单的改改名字。为了在数据中心充分实现应用程序的效率，传输卸载、可编程的数据平面以及用于虚拟交换的硬件卸载等功能是SmartNIC的重要部分，但只是DPU的最基本要求之一。要将SmartNIC提升到DPU的高度，还需要支持更多的功能，比如能够运行控制平面，以及在Linux环境下提供C语言编程等。
说得再直白一些，DPU是面向数据中心的专用处理器，新增了AI、安全、存储和网络等各种加速功能，将成为新一代的重要算力芯片。它能够完成性能敏感且通用的工作任务加速，更好地支撑CPU、GPU的上层业务，成为整个网络的中心节点。
当然，我们还是要佩服黄仁勋的“带货”能力，能让DPU概念一炮而红，吸引业内众多竞争者纷至沓来。从海外的英特尔、博通、英伟达、赛灵思、Marvell、Netronome、Pensando、Fungible、Dream Big，到国内的DPU创企中科驭数、星云智联、大禹智芯、芯启源、云豹智能，每一家企业都在摩拳擦掌，跃跃欲试。
从英伟达公布的DPU产品路线图来看，BlueField-3/3X和BlueField-4将分别于2022年和2023年问世，届时，将可提供400TOPS的AI算力和400Gbps的带宽性能，从而解放GPU，只在单芯片DPU上就可实现网络、存储、安全等关键任务的加速工作。

Marvell今年6月最新推出的OCTEON 10系列DPU，采用了Armv9架构的Neoverse N2 CPU内核和台积电5nm制程工艺，支持最新的PCIe 5.0 I/O与DDR5内存。作为DPU的重要补充，Marvell还为OCTEON 10引入了内部机器学习(ML)引擎。这样，从本质上讲，Marvell正在成为英伟达的直接竞争对手。

英特尔在6月15日Six Five峰会上推出的全新基础设施处理器(IPU)其实也值得一提。按照英特尔的官方说法，IPU是一种可编程网络设备，扩展了英特尔的智能网卡功能，旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销，并充分释放性能价值。利用IPU，客户能够部署安全稳定且可编程的解决方案，从而更好地利用资源，平衡数据处理与存储的工作负载。
再回到国内。根据Canalys Cloud Channels Analysis预测，到2023年，中国DPU市场规模将达190亿人民币。也有其它分析机构预测，中国DPU市场规模预计将在2025年超过37亿美元，约合240亿人民币。
中科驭数算是国内布局较早的一家DPU企业，其DPU基于自主研发的KPU(Kernel Processing Unit)架构。以KPU架构为核心，中科驭数在2019年设计了业界首颗数据库与时序数据处理融合加速芯片，已经成功流片。今年初，该公司又宣布了其下一颗DPU芯片研发计划，功能层面包括完善的L2/ L3/L4层的网络协议处理，可处理高达200G网络带宽数据，预计将于2021年底流片。
另一家DPU芯片企业“芯启源”则在6月宣布完成数亿元Pre-A3轮融资。这是一家针对超大规模电信和企业级的智能网络提供核心芯片和系统的高科技公司，可提供从芯片、板卡、驱动软件和全套云网解决方案产品，已获得了中国移动苏研院的首批智能网卡订单。
成立于2021年3月22日的星云智联专注于数据中心基础互联通信架构和DPU芯片研发，今年4月宣布完成数亿元天使轮融资。其正在研发的DPU将在IAAS和PAAS之间形成独立的CAAS(通信服务层))，实现物理资源的“多虚一”和近乎裸金属性能的“一虚多”，简化IAAS，提升资源利用率;卸载PAAS中与通信数据流相关的处理，提升应用的通信效率和性能。
有行业人士表示，未来，用于数据中心的DPU量级将达到和数据中心服务器等量的级别。“每台服务器可能没有GPU，但一定会有一块或者几块DPU/IPU卡，这将是一个千亿量级的市场。”作为数字基础设施中的新物种，火热的DPU赛道未来会走出怎样一波行情，值得期待。
责编：Luffy Liu