GPU-交通一张图-超异构融合边缘计算分析

GPU-交通一张图-超异构融合边缘计算分析

参考文献链接

https://aijishu.com/a/1060000000370875

https://mp.weixin.qq.com/s/rI25fhsDZFsejRU4kU429w

https://mp.weixin.qq.com/s/W2Gk_sl2gm2JBtT6l53yoQ

首先给大家介绍一下今天分享的内容,分五个部分。第一部分先介绍一些计算和算力的相关概念,然后介绍一下目前计算架构面临的各种挑战,第三部分介绍计算会从异构走向超异构,以及行业TOP公司的一些相关趋势案例,接下来介绍为什么现在发展超异构计算,而不是过去也不是未来,最后介绍超异构融合如何助力边缘计算的发展。

微观计算和宏观算力

第一个就是大家非常熟悉的冯诺依曼架构。说个笑话,怎么把大象装进冰箱?第一步打开冰箱门,第二步把大象放进去,第三步把冰箱门关上。其实计算也是一样,系统由输入、计算、输出三部分组成。

 

 图1-冯诺依曼架构

冯诺依曼架构由控制器、运算器、存储器、输入设备和输出设备五部分组成。所有各类处理引擎都依然遵循冯诺依曼架构的指导思想。

第二个是我们非常熟悉的摩尔定律。上世纪八九十年代,CPU的性能每18个月性能就会翻倍,这就是著名的摩尔定律。

 

 

 图2-摩尔定律

2015年之后,随着CPU性能走到极限,目前大概每年只能提升3%左右,要想性能翻倍需要20年时间。基于CPU这样的处理器性能的摩尔定律已经失效,但是换一个视角来看,因为我们的计算,我们的业务,我们的场景需求不断推升我们对性能要求的时候,性能的要求是永无止境的。因此,摩尔定律作为一个行业的KPI是永远有效的,它促使行业一直往前发展。如果一个公司或产品能够做得比摩尔定律好,就能够生存,如果做得比摩尔定律差,则只能走向消亡。   

第三讲一下什么是软件,什么是硬件。指令是软件和硬件的媒介。指令集之下的CPU、GPU、各种加速器是硬件;指令集之上的程序,数据集,文件等是软件。我们可以依据指令的复杂度,把处理器从左往右排一个序。最左边是CPU,最右边是ASIC。最左边最灵活,性能相对来说最差;最右边最不灵活,性能相对来说最好。我们把CPU上的运行称之为软件运行,其他处理器加速引擎上运行的称之为硬件加速运行。

再看一下性能和算力的关系,性能是相对微观的概念,算力是宏观的概念,性能和算力本质上是统一的。所以我们给了一个非常粗略的计算公式,实际的总算力等于单个处理器性能乘以处理器数量再乘以利用率。要想实现算力的提升,仅仅提升单芯片的能力是不够的。还需要让芯片大规模落地,与此同时芯片所组成的算力系统要有非常高的利用率才可以。也基于此,这三个参数形成了我们对算力优化的三个层次,也就是微观、中观和宏观。微观层次要提升性能有三种方法,工艺提升、Chilpet直接封装,还有系统架构和微架构的创新。中观层次,芯片层次怎么去支撑芯片大规模落地,怎么去大规模复制这样一个系统。再往更上面是宏观,怎么驾驭算力,算力如何形成一个非常大、用户好用的算力资源池子,用户能够充分利用算力资源池形成各方面加速化的应用,都是些非常有挑战的事情。

接下里,我们来看万物互联。我们可以把它说得简单一点,只有三个层次,云、边、端。这里把网络忽略了,网络是另外一个相对更复杂的话题。终端是我们物理世界和虚拟世界的一个交互点,所有的东西都通过终端去连接。云端相当于我们的大脑,进行集中式的决策分析。边缘端是代理层,代理云端为终端去提供服务。

 

 图3:计算节点的分类

我们把计算的节点按照上图3来划分。终端大概有四个层次的节点,最简单的是小规模MCU层次,其不需要安装操作系统。往上是高性能MCU,需要RTOS。再往上就像手机、Pad、平板电脑,需要运行操作系统来跑我们各种各样的应用。再往上,我们需要让很多系统共同地运行同一个平台,目前最典型的场景就是自动驾驶,形成多域融合的一种架构。在云端,服务器会有很多分类,通用的,异构的,存储的,网关的等等。这里需要提一个概念——用户运行环境。因为底层的基础设施做好之后,用户的东西需要在上面运行。当然,边缘也分为两个层次,一个是近云的边缘和近终端的边缘。两者最大的区别就是是否支持多租户运行,是否是多个不同混合系统的运行。

计算架构的发展现状和面临的挑战

接下来介绍第二部分,目前计算的架构的现状和我们面临的挑战。我们大家都知道,最开始处理器CPU是单核的,宏观来看指令都是串行执行的,后来有了多核,所以有了并行计算。同构的并行也不够,因为它的性能还是存在一些问题,就有了异构并行。异构并行目前有三个典型的类型,一个是基于GPU的异构,一个是基于FPGA的异构,一个是基于DSA的异构。异构计算目前更多地应用在弹性的应用层次异构的场景,弹性体现在哪里?首先体现在一个硬件的加速引擎,能在很多场景,很多领域去用。另外一个弹性的点是指一个硬件的加速引擎,我可以给用户A用,可以给用户B用,也可以给用户C用,可以是分时的甚至是同时的,对弹性要求非常高。当然,异构可以是独立的异构芯片也可以是集成的异构处理器。

 

 

 图4-GPU服务器

异构的案例最经典的就是用于AI场景、各种大数据分析的GPU服务器。异构还有很多其他典型的案例,比如国防科大的天河巨型机,首次把异构计算用在超算领域;还有各种AI处理器。现在的GPU的优势是它的灵活性非常地好。在目前最典型的AI场景来说,GPU是最合适的计算平台。它的劣势在哪里呢?它的性能效率还不是最优的,还有更优的,但是更优的也有它的问题所在,所以GPU目前是最合适的。

基于此,目前遇到的最大的问题其实是CPU的问题,是从CPU性能瓶颈开始引发的连锁反应。这里提一个复杂计算的概念,通俗易懂地讲,复杂计算就是需要支持虚拟化,需要支持多租户多系统运行的计算场景。在我们的工作中发现,在云计算、边缘计算以及超级终端的复杂计算场景,对灵活性的要求远高于对性能的要求。举个最直接的例子,如果CPU的性能够用,大家绝对不喜欢用各种加速。CPU通用灵活性是最好的,但是如果CPU性能不够,就不得不去运行各种加速。实践证明了在提升性能的同时,一定不能损失系统的灵活性。言下之意就是目前很多芯片的优化方案,特别是AI芯片等加速芯片的优化方案损失了灵活性,这也是目前行业的痛点之所在。

总结一下异构计算存在的问题。刚提到的复杂计算矛盾点在于,一方面系统越复杂越需要灵活性,另一方面对性能要求越高,反而要定制的专用的加速器。矛盾的本质核心在哪里呢?我们认为是在单一的处理器无法兼顾性能和灵活性,要么是优先考虑灵活性,要么优先考虑性能,两者之间很难做到兼顾,只能去平衡它。要想兼顾它,怎么办?是要多异构混合,也就是大家相互协同。举一个案例,我们的异构计算核心的整个特征是由异构的处理器决定的。GPU性能不够,DSA的灵活性差了一些,FPGA功耗和成本高,ASIC在复杂计算场景完全不可用,还有计算孤岛的问题。

 

 图5:服务器的架构演进示意图

如图5所示,最开始都在CPU里面算,除了性能之外没有其他问题。后来有了各种加速,最后发现CPU成为问题的瓶颈。最后有了DPU,部分解决了问题,因为DPU可以做I/O的加速。但是DPU没有本质地解决问题,需要整个系统更充分地互联,每个处理器跟别的处理器都能够更加充分高效地交互。在后面我们会给出一个答案。

计算从异构走向超异构及相关趋势案例

第三部分,给出我们的观点,计算需要从异构走向超异构。与此同时,我们也介绍了一下英特尔和英伟达相关趋势的案例。

第一步,我们首先在思考,为什么超异构这件事情能够成立呢?

①因为现在计算超大的规模,因为有了规模之后很多东西会沉淀下来。②复杂的系统其实是由分层分块的东西组成,分层分块之后,底层相对更加通用一些。③这里就会呈现出二八定律。

基于此,我们把系统分为三个层次,一个是最底层的基础设施层,一个是上层的应用层。基础设施层是相对最确定的,应用层是相对最不确立的。中间的就是应用层可以剥离出来的可加速的部分。我们分为这三个层次。

 

 图6:超异构计算有机整体

计算就开始从异构走向超异构。我们再来看计算的四个阶段。第一个阶段是单系统串行,第二个阶段是同构并行,第三个阶段是异构并行,第四个阶段是超异构并行。图3是一个示意图,把这些东西充分地互联在一起。每一个处理引擎之间都是可以点对点互联的、充分的数据交互的。

接下来看一下案例,超异构这个概念是英特尔提出来的。我们在网上找到的最早的资料是2019年Intel中国研究院院长宋继强先生提出来的,但是目前Intel还没有超异构相关的产品出来,或者说目前都是偏组件的产品。其提出XPU和oneAPI,XPU包括CPU、GPU、FPGA和其他的加速器,然后在XPU上通过oneAPI把应用跨不同的平台去运行。

再就是Intel所做的IPU基础设施处理器,对应英伟达的DPU。它的最核心特点是支持P4可编程包处理DSA、RoCEv2,在IPU基础上做了一个IPDK框架,它是一个完全open的接口,完全开源的框架,因此形成了一个超异构的生态,非常有价值。基于此Intel跟Linux基金会成立了OPI联盟。这里面有一个非常重要的点,如果超异构由底层的DSA中间的GPU和上层的CPU共同组成的话,其中CPU生态和GPU生态已经存在,最关键的点在于底下的DSA,即基础设施层生态。因此,谁把握了这个生态,谁就是未来最大的赢家。我们对Intel的超异构进行了分析。首先其各类引擎是成熟的,只是缺乏整合。接下来怎么把这个东西整合成一个超异构,跨平台已经有了XPU和OneAPI,可编程是Intel提出的可编程网络,我们把这个概念扩展一下,网络可编程、计算可编程、存储可编程,一切皆可编程,这是Intel的整体战略。

对于英伟达的一些做法,其在9月份刚刚发布了Thor芯片,终端的自动驾驶芯片,达到了2000 TFLOPS算力,这个算力非常恐怖,能把多个域控制器的能力集中到一起,单芯片解决问题。在自动驾驶终端目前最大的趋势是从数以百颗的ECU到数十颗的DCU,再到功能融合的超级单芯片,该趋势很明显。图7为Atlan架构示意图,Thor是Atlan的升级版。大家可以清晰地看到里面就是CPU、GPU和DPU共同组成的,而且这个架构和云端的架构一模一样,区别只是规格有所不一样而已。这不是一个SOC,SOC是单系统,而Thor是多系统混合的平台,而且它的算力灵活性、弹性能力远高于SOC。NVIDIA在数据中心目前已经有CPU加GPU的集成芯片,也将有DPU加GPU的集成芯片,在终端已经完成了整合的过程,在数据中心这个事情也是可预见的。

 

 图7:Atlan架构示意图

最后讲一下英伟达目前对未来走势的看法,这个观点是很多英伟达多位技术专家的看法整理而来。他们认为计算和网络不断融合,计算的许多挑战需要网络的协同,网络同时也是计算机,其加入到计算集群成为计算的一部分。数据是在网络中流动,计算设备是网络中的一个数据处理的节点而已,这样所有设备都是DPU。以DPU为基础,不断融合CPU和GPU的能力,就变成了我们所认为的超异构处理器。这个观点说明,英雄所见都是略同的。

为什么是现在   

我们从几个大的背景来说明为什么是现在来做这件事。

第一个就是新应用层出不穷,前几年的自动驾驶、区块链,现在的元宇宙,AI已经是很多年前的概念了。两年一个新热点,已有的热点仍在不断演进。也因此,系统对我们而言,一直处于变化中。面对变化,我们需要开发高度灵活的,并且还需要性能数量级提升的芯片系统。

再然后就是算力需求永无止境,永远不会有够用的时候。任何时候,都是硬件制约了软件的想象力。Intel一位VP说,元宇宙需要千倍的算力提升。这里举两个案例,一个是VR头盔,如果要实现沉浸感的16K效果,需要280Gbps的带宽,目前的网络、计算、存储基础设施都无法处理这么高的数据量。还有一个就是智能AI,现在AI模型越来越大,单个AI的算力要求也是迅猛增加,并且元宇宙对数字人的数量要求也很庞大,这对算力的要求是及其恐怖的,目前的算力基础设施还很难达到。

还有工艺和封装的进步,像最新的Chiplet技术,可以让计算规模成数量级的提升。Chiplet和超异构可以说是天生一对,超异构需要成规模提升的算力,刚好Chiplet提供了这样的能力。反过来,Chiplet需要更高的价值去变现,现在Chiplet只能百分比或者线性地提升性能,而超异构可以指数级地提升性能,让Chiplet价值最大化。。

还有超异构驾驭的问题,异步编程很难,超异构编程是难上加难。可以利用软件融合方便地提高灵活性、可编程及易用性、产品弹性。通过软硬件融合驾驭超异构,可以实现超异构的顺利落地。

超异构融合,助力边缘计算腾飞

最后,呼应我们今天的主题,边缘计算。这里谈一下我们对边缘计算的看法,可能有不对之处,请大家多指正。我们认为边缘计算和CDN很像,区别在于CDN是只读的。边缘计算不是,数据到本地之后需要计算,然后再同步的云端,导致的数据一致性和冲突问题会非常恐怖。

还有云网边端融合挑战,一切皆服务,未来云端也好,边缘端也好,终端也好,网络端也好,微服务都可以随意运行。这样,计算的资源就形成庞大的统一计算池。云网边端,面临的算力是异质的,架构形态不一样、尺寸也不一样,这些都是需要去打通的。

总结一下边缘计算的特征。边缘计算是典型的复杂计算场景,其需要支持轻量的IaaS,需要支持容器,更关键的是边缘计算是一个Serverless,并且服务具有显著的可移动性,比如无论汽车开到哪里,提供的服务都一定是跟以前一模一样。还有一个更核心的问题,就是边缘侧对性能和成本更加敏感。

基于此,我们认为服务器的架构演进,如图8,复杂计算场景,其架构演进趋势是:从合到分,再从分到合。最终要形成的是网状的超异构算力。图的右边是详细的服务器架构演进,左边是一个示意图。未来,数据中心会重新走向融合型单芯片解决方案,即超异构处理器。

 

 

 图8:服务器的架构演进   

那么,超异构芯片大概有哪些功能,通俗地来说就是现在的DPU、GPU和CPU功能的集合。如图9所示,最底下是一些服务,上面是虚拟化的管理、弹性存储、弹性网络还有安全。再往上弹性计算,AI,其他的加速。这就是支撑VM、容器、函数计算的一个平台,并且计算过程中,一些敏感性能的东西也能够放到底下的弹性加速里面对它进行加速。

 

 

 图9:超异构融合芯片的主要功能

目前来说,GP-HPU主要适合于一些轻量级场景,比如相对云端计算更轻量的边缘计算,同时对性能价格比也更加敏感。有过测算,边缘计算服务器数量会占到服务器数量的80%。GP-HPU把很多芯片能力融合到一块,让性能显著提升一个数量级,让成本降低一倍以上。

单DIE芯片的GP-HPU,可以用在一些轻量级的场景,通过Chiplet集成实现的GP-HPU则可以覆盖重量级服务器的场景。两个芯片规格可以实现服务器类型的全覆盖。

展望一下,超异构既可以放在边缘侧,也可以放在云端,甚至可以放在超级终端,想象空间很大。通过各类功能的超异构融合,实现综合最优的单芯片解决方案。

GPU国产替代潮,无路可退,也没有人想投降

“预计到2020年,国际上微电子技术水平将发展到14纳米。我们应该清醒地认识到,核心技术是买不来的,必须靠我们自己,只是一代又一代的引进新的生产能力是赶不上世界先进水平的。我们研究人员要争口气,否则发达国家在核心技术方面总是要卡我们的脖子。”                                                                         
——《努力把握微电子、软件和计算机产业的技术主动权》(2006年12月10日)

“如果因为层层加码的外部限制,就直接啥也不做了。那我当初创业是为啥呢?”一名头部国产GPU创业公司的CEO对品玩表示。

2022年10月7日,美国商务部下属的工业和安全局(BIS)发布厚达139页的对华半导体出口管制措施,影响程度被形容为“把对华为的管制扩大到整个中国半导体产业”。这次扩大的限制并非毫无征兆,8月31日,英伟达披露美国政府已对其提出出口管制要求,禁止其两款高性能GPU产品出口中国。这些步步紧逼的限制封锁指向的一个重要目标,就是极度依赖GPU算力来发展的人工智能。支撑人工智能的深度学习系统,可以存在于你的手机里,但更多时候需要数据中心里连在一起的机器“集群”来实现。数十个鞋盒一样大的服务器层层叠插在和人一样高的“货架”上,一排排架子再塞满仓库一般的数据中心。一颗颗GPU就运转在这些盒子一样的“仓库”里。今天在世界各地的大“仓库”里,英伟达的GPU最多。而这些GPU的计算能力超出普通人的想象,甚至最大胆的科幻家也会感到惊奇——在2003年的科幻电影《终结者3》里,那个差点毁灭人类的超级计算机“天网”,算力为60tflops(也就是每秒6万亿次浮点计算),今天英伟达最先进的数据中心GPU H100,在特定精度下,算力达到了67 TFLOPS。与算力一样迅猛增长的还有市场规模。根据Verified Market Research 估算,预计2027年中国大陆GPU市场规模将超过345.57亿美元。这是一个前所未有的大市场,也是一个被封锁最深的技术领域。美国人几近疯狂的限制,想要遏制中国本土企业取得任何进步,但面对一生难遇的巨大机会,给外国巨头打工多年的华人芯片从业者没人想要再退缩。

 “我们能够替代它”

2018年6月,出乎业界预料的,AMD 抢在英伟达之前,发布了全球首款7纳米制程的GPU芯片,命名Radeon Vega。这款产品并非针对游戏市场,而被定义为专为人工智能和深度学习设计,用于工作站和服务器。

让人工智能达到今天的水平的一大功臣是神经网络。神经网络本质上依靠的是大量的乘法和加法:当一个网络中的“神经元“彼此激活时,它们也会对彼此的信号进行放大或者缩小,乘以一些权重数。这个过程其实就是在计算大量的加法和乘法。而GPU最初被设计出来要解决的就是类似的工作:快速的同时做大量乘法和加法,来算出所有图形,从而生成游戏里的一个个画面。GPU的巨大机会从游戏转移到人工智能的市场,而这块首个7纳米GPU的发布,也意味着在显卡行业追赶英伟达的AMD,把战火也引入到了人工智能行业。这个激进的策略充满挑战,AMD的高管当时形容:“转换到7纳米制程是近几代芯片设计最困难的路程,涉及使用新CAD工具及多项设计改变。7纳米的晶体管连接方法比较特殊,AMD必须与半导体厂更加密切的合作”。不过,在当时对这块芯片的各种讨论中,却基本没人提及负责设计它的团队。2018年,钱军在AMD上海负责GPU SoC核心部门,带领800多人的团队,从他团队手上流片的芯片已有40多颗。在诸多国外芯片厂商中,AMD是在中国建设研发团队最积极的那个,到2018年这个研发团队规模数千人。这块全球第一枚7纳米GPU芯片,就是钱军带领的团队开发的。而六个月后,钱军离职创业,创办中国芯片公司——瀚博半导体。2018年的GPU和芯片创业领域,其实国产替代的概念还没有今天这么强的压迫感,也没有伴随而来的热钱。在事业蒸蒸日上的时候离开AMD,钱军自己称,就是因为自己认为自己能做的更好。“做芯片的初创公司很长时间不受待见。投资人觉得投入大回报周期长,有很大不确定性。但2012年机器学习的概念把人工智能推向风口浪尖,人们意识到算力和需求的gap(鸿沟)非常大。2015年谷歌推出TPU后,从硅谷到中国出来了很多初创公司。2018年我看到这个机会,我觉得我应该出来做,我能把这事做好。”钱军在一次分享中说。很快一支核心团队成型。熟悉他的人称,钱军一呼百应,本就在AMD上海公司内部研发团队里号召力强。“很多人愿意跟着他干。”这个新组建的有平均15年GPU开发经验的团队,并没有一上来就发布和英伟达对标的GPU产品,他们先用了两年研发并交付客户流片了一款7纳米的半定制芯片,之后在2021年第一季度量产首款服务器级别的智能芯片SV100和通用加速卡VA1。简单来说,这些芯片针对AI+视频的场景开发,而这些场景目前使用的主流的芯片也是英伟达的GPU芯片。在2022年9月的人工智能大会上,钱军又发布了已经在用户机房里用起来的新一代产品——VA10。根据他的介绍,VA10在一些主流应用场景的算力是破纪录的,最适合各种需要高实时性的云端AI应用部署,如直播视频增强、智慧交通管理、实时语义理解等。“这个芯片在客户端,有时候可以看得见是100%打完,而且没超功耗。这个就厉害了。业界其他的竞品有他们的想法,我觉得最终不用纸上评判,你拿出来大家去跑,也别看你有多少Tops,我有多少Tops,就看做到同样的效果,我的功耗会不会比你更好。”他说。“想知道具体怎么做到的,我们签个NDA,可以聊聊。”钱军略开玩笑的说。与这些枯燥的数据相比,实际上对英伟达的替代才是更直观的实力证明。在被问到对英伟达的替代效果时,钱军介绍,在一些功能场景上,“瀚博75瓦的卡就已经可以替代它150瓦的卡”。“现在任何形式的服务器结构,我都可以有对应的产品去跟我的对手去竞争,然后替代,所以完完全全现在是个全替代。”他说。而瀚博还在研发一款GPU,SG100。“我们很快会正式对外发布。”“有全球第一颗 7 纳米GPU和第一颗 7 纳米 GPGPU 架构 AI 芯片开发经验,而且不只是一个人有。”一名国资背景的投资方对品玩说,他们正是看中了钱军的号召力和下面成建制的团队。“相信他未来能打仗的原因是打过胜仗。”但即便这样,瀚博的团队也不是中国GPU创业热潮之下处在聚光灯里的最亮眼明星。

 

 

 中国GPU创业潮里,从背景看着实星光璀璨。由英伟达中国区前负责人张建中在2020年创立的摩尔线程,于今年3月发布了12纳米的首款GPU——苏堤;由 AMD 中国前图形研发高级总监陈维良创立的沐曦等待着首款7纳米工艺GPU产品的量产,2015年底成立的天数智芯去年3月已发布7纳米GPU—— 天垓100。其中最被津津乐道的,则是2019年成立的壁仞,它一出生就融到超过47亿元的资金,目前尚未量产产品,但今年8月正式发布了对标英伟达最精锐GPU的产品:BR100。因为种种原因,国内对壁仞的关注也更多聚焦在了张文的身上。多个媒体讲述过这名芯片技术门外汉、原商汤科技总裁,通过一张名单拉来诸多技术高手并借此又拿到巨额融资的故事。壁仞被描述为一个资本大潮的集大成者。但在这个故事的另一面,是华人芯片高端人才前所未有的一次整合。多名中国和硅谷的芯片从业者表示,壁仞这家中国GPU公司因技术上新尝试而受到来自全球芯片行业的关注程度,是近年中国公司少有“享受”的待遇。与瀚博不同,壁仞选择的路线是“一步到位”研发GPU。在8月发布BR100后,9月,壁仞出现在全球最受瞩目的芯片行业会议HotChips上,在 GPU板块,跟在英伟达,AMD和英特尔之后做了主技术分享。“我发现BR100的架构思路很有意思,它打市场时显然不想完全沿着英伟达的思路去做。”一名硅谷芯片行业的华裔资深架构师对品玩表示。“GPU采用多核结构,并行计算很厉害,但问题又来了,核数再多以后,数据和存储都要从一个门进出,虽然核内计算是很厉害的,但是数据和存储有瓶颈,就像我们经常说的CPU太快了,内存跟不上了,GPU的数据传输也遇到了问题,所以架构上各方面还要调整,比如说采用一些分布式的架构。”中国互联网投资基金管理公司总经理李筱强说。我们可以把芯片设计类比为在一个固定面积的土地做城市规划:如何在有限土地上组织街区之间的大路,和一户户房屋之间的小路,决定了这个城市的最终运输效率。而根据多个芯片设计从业者的分析,从壁仞公开的架构设计来看,它用了大量的创新来提高这个运输网络的效率。比如建设距离街区更近的停车场,并且用一种技术让这些停车场可以连通起来当作一个大停车场来调配;比如在它的两个城市之间建设足够快速的公路,从而让两个城市在人们的感受上也看起来像是同一个城市——BR 100 使用了Chiplet封装,但两个芯粒可以被软件识别为同一个GPU来运转。当然,同时也会牺牲一些其他的性能作为代价,比如计算的精度,以及高负载下的传输瓶颈。以及,在实现Chiplet的环节,对由芯片制造厂掌握的新技术的依赖,也带来不小的不确定性。不过,前述硅谷芯片人士认为,壁仞能带着BR100上HotChips34去分享,就是因为它的设计思路里,有些地方的确是近几年GPU行业少见的尝试——哪怕不是完全新的东西,但英伟达这些年垄断不只是市场,也让其他公司对技术路线的野心少了许多,因为试错的代价高昂。据壁仞内部人士称,在2019年成立之初壁仞设定了自己的GPU设计出来后的算力必须达到英伟达当时产品的10倍。而2019年,英伟达处在过渡到安培架构的过程,但当今年BR100推出时,英伟达最新的产品已经是Hooper架构下的H100。不过测试数据显示,在矩阵乘法的吞吐量上,BR100的确与H100不相上下。在GPU领域,最接近“工业标准认定”的较权威评测,是MLPerf的比赛。它由多个行业重要公司一同发起,简单来说,就是通过让各家产品来跑最主流的模型来考察它们的算力。壁仞在HotChips上分享之后,9月第一次参加MLPerf,用BR100的“小弟”BR104芯片拿下两个全球第一,分别是一个主流的自然语言理解模型和图像分类模型。某种程度上,壁仞在今年就是全球华人芯片从业者最关注的焦点公司:一次采访中,壁仞科技CTO兼首席架构师洪洲也曾形容 “从90年代开始的20多年内成长起来的(华人)架构师,基本上都在我们这边。”“壁仞的节奏感很好,从发布到参加HotChips再到MLPerf,和目前定的量产节点,都是按整个芯片行业的最专业的标准在做。如果最终可以在年底按计划量产,那这种把控力还是挺难的。”上述硅谷人士称。

“天天背着包到处跑客户”

芯片设计上有了突破,接下来的难题是芯片制造环节。有分析指出,美国商务部的最新限制,事实上是“假定拒绝”原则,据财新梳理,“运算速度达到4800TOPS (每秒1万亿次传输)、传输力达到600GB/s(每秒1G比特传输速率)的高性能计算芯片,都将被严格限制。”而根据壁仞在HotChips的PPT介绍,其芯粒间传输速度达到896GB/s。芯片制造厂商如台积电,一方面忌惮于美国的长臂新规,另一方面,它们也急迫需要更多样的芯片设计客户,来减少对英伟达等主要客户的依赖。这就使得其中有许多可以努力争取的空间。在美国商务部的限制出台后,传出台积电将暂停为壁仞流片的消息。据知情人士称,壁仞的确在相关超过限制标准的芯片上开始主动做调整,寻找可以按计划继续出片的方案。而被问到现在的影响,另外两家主要国产GPU创业公司透露,目前还没有受到直接影响,但也在从订单和客户角度去研究调整订单量和库存计划。一位依靠台积电7纳米制程进行量产的芯片公司高管则答到:“现在片上确实有更大可能出问题,但可以肯定地说,我们以及同行都没人想退让。”“我们这些人其实骨子里都挺骄傲的,这事我们想做成,想见证中国芯片的高光时刻”,该芯片公司高管说。困难很大,但方法也有。在今天的国产芯片创业热潮中,一个最大的特点,是这些核心人才普遍拥有真刀真枪的流片与抢占市场的经验,他们更清楚从真正的市场需求来倒逼制造厂商有多重要,也有丰富的经验。“快手有3.5亿的平台,每天3000多万视频的大数据,我不缺数据,也有人做算法,我只做热门视频,热门视频还要分层、还要分优先级,为什么?我算力不够。”快手一名视频算法团队技术负责人说。“我们测了瀚博VA1的卡,作为算法开发人员,说实话从算法的效果和加速程度以及功耗上,是胜过通用GPU的。”这种来自最终用户的认可最为关键。“我自己一定会说自己的产品好,但是我们的客户来说我们的产品好,那我们的产品应该是真的好。”钱军说。这些芯片创业公司的进展速度有时候超过了外界对他们形成印象的速度,在不少人依然用PPT公司来形容他们时,这些公司已经建立起完备的公司体系,而产品已经实打实进入一些重要客户的机房。这些真实的需求让制造厂商真切感到它们给出的订单是可持续的。“互联网客户的导入是非常严格的。快手的机房里面,它每天7天24小时都在跑高密度的,如果不散热的话,温度你是受不了的。所以在这种强度下再跑你的芯片,如果你的芯片,软件出问题,稳定性不行的话,其实是很难做,所以进互联网数据中心,这是一个很大的护城河。如果说你能够迈进互联网,那么不管你是什么样的卡,说明方方面面从性能、视频质量甚至迁移成本,都是完胜。”事实上,这些初创的公司,从第一天开始就花费着巨大的努力来拓展客户,走着一条app driven的路线。据品玩了解,瀚博在组织架构上分为IP部门(自研和三方IP维护),DV部门(负责各种IP验证等工作),SOC部门(芯片从前端到后端的全流程实现),PVP部门(用市场需求指导产品),软件部门和解决方案部门(验证各种算法以及云端部署需求)等。其中,随着更多的产品线出现,瀚博的IP部门开始使用中台的概念。很多可以互用的核心技术IP,做统一开发,内部要求这些技术IP在GPU和AI产品里都得可以工作。这样的架构有足够的灵活度,也处处体现出结合市场需求来指导研发的思路。而壁仞的组织架构同样围绕产品的市场需求来设计。“直接触到用户和市场需求的部门地位很高,甚至是大部分业务项目的出发点。”一名壁仞员工说。与芯片设计环节性能对标英伟达一样,在市场拓展时,他们的对手依然是这个美国巨头。

 

 

 被美国禁止出售给中国的英伟达高端GPU Nvidia A100 ,图源:英伟达一名大厂的芯片对接负责人对国产创业公司的努力印象深刻。“英伟达对我们其实是很不care,需求要谈很久,因为我们带来的本来也是增量。他们从来没有和我们多么密切的合作过。”“而和这家国产公司对接,他们的人来到我们办公室,早上谈了大致需求,然后我们就去工作了,他们的人留在会议室就开始鼓捣。”后来当天晚上,他们居然就跑通了这个模型。多个芯片公司管理层形容,自己公司的销售“天天背着包到处去客户的机房里适配,很拼。”“关键就是一定要有突破口。有了突破口,就一定会有好的客户愿意跟你交流。“钱军说。“我们有一些场景,世界上没有任何另外一个芯片能够支持,他要做这个东西只能找我,这个是一个敲门砖,剩下的就是怎么样把你的软件这些东西做得更易用。”这些努力和市场份额的变化,都在向上传导到制造端。“之前芯片法案出来后我们也在评估,但其实这些年都有一样的挑战。”一家在使用台积电7纳米工艺代工的公司员工称,而根据瑞银证券的报告,台积电7纳米制程明年上半年产能利用率“恐只剩七成”。“芯片是个非常需要营收来反哺开发的产业。”前述CEO称,“所以台积电的态度也在不停变化,大客户砍单,空出来的产能,我们接触中明显感到他们也很着急。”

 击碎“投降主义”的非议

和巨大的机会与人才井喷一同到来的,是前所未有的关注。而它们并非都是带着善意。

在国产厂商越来越多的发布会上,展示的PPT里少不了和“主流产品”的对比,哪怕没有标出,所有人都知道那“主流厂商”指的就是英伟达。但在很多围观者的眼里,喊出挑战英伟达的那一刻,国产厂商们就有了原罪。于是,在国产GPU行业最需要各种鼓舞人心的进步的同时,中国初创厂商们如何表达取得的成绩,却成了一个大问题。其中频繁出现的一种批评更是直击心灵——你也配叫做GPU。“如果你关注GPU相关的讨论,会发现许多爱好者们总是喜欢争论一款产品到底算不算GPU。而并不关心实现的计算需求本身。”前述CEO表示。“他们比任何地方的从业者都更喜欢讨论一个架构是否是GPU架构,并以此定义一个产品是否够先进。”这些看似对架构和技术的讨论,背后是对英伟达塑造的叙事以及行业现状的膜拜,让他们瞧不上国产替代芯片厂商们的研究和产品的一个重要原因,是GPU代表的“通用性”——英伟达可以适配最多的模型,它才是真正的通用。但事实上,这些人所标榜的英伟达“生态”,是一个前所未有封闭的系统。英伟达之所以通用最强,其实除了他不停更新的GPU架构带来的帮助外,更多是因为CUDA的适配。CUDA全称compute unified device architecture,是英伟达提供的软件平台。它在2007年就已推出,有报道称,初期这个软件平台每年就需要英伟达投入5亿美元,而当时英伟达的营收还只是在30亿美元规模,至今CUDA的总投入早已超过100亿美元。今天它是所有GPU软件开发和适配的“垄断”平台,开发者人数在以数百万规模不停翻倍增长。“英伟达是他自己定义了一套东西,他不开源。里面有什么东西都不告诉你,基本上是垄断的情况。那他自己做得好,别人没法玩。”钱军说。“你得去猜,然后你猜的不对,你的性能就掉了一大堆,所以你要做CUDA 适配,其实理论上是不可能,而且它是完全闭环。”“很多算法甚至连最初开发时候也是在CUDA里做出来的,这是巨大的优势。”一名算法工程师说。而在GPU进入更快的迭代阶段后,在架构被挑战后,英伟达甚至也可以通过按照自己的新架构特点来改动CUDA 库的方式,协同实现性能提升。“这就好比路和车,她可以把路改的更适合它的车。而你只能改车。辛辛苦苦改完车,发现路又变了。”“我们的团队里其实更多的是软件开发人员,但加班加点开发,几年也只适配了一些主要的模型。跟CUDA能提供的库没法比。这就是事实。”一名壁仞员工说。也就是说,用英伟达投入了巨额金钱获得的封闭的通用性,去衡量这些新创公司“通用”与否,本身就是个一厢情愿的比较标准。不过,与那些巴不得国产厂商趁早“投降”的人们不同,越来越多真正扎根在产业里的中国创业者已经开始有策略的走出这个阴影。一方面,他们深知现阶段必须要从英伟达建立起的体系里找到突破口:“作为一个要杀入这个场景的公司,肯定不能说我自己定一套规则。如果那样,你连卡都插不进去现在客户的服务器,人家怎么跟你弄,你怎么证明你比它强。”钱军说。“事实上,现在所谓的框架已经没有大的颠覆,反而更多是融合与微创新。”一家使用GPU做图像生成业务的创业公司的对品玩表示,在英伟达最新的Hopper架构里,在计算光线和物体的关系时加入了一个新的引擎,而他们在研发底层框架时也用了类似的技术思路。他认为,事实证明这样的迭代已经都可以做到,差别在于怎么定义这种小引擎的重要性。而另一方面,这些年轻公司已经开始摆脱对英伟达的迷信——通用重要,但更要知道对于自己来说真正重要的技术路线是什么,而不是陷入英伟达的议程里。“GPU的图形管线对我们来说只是计算机处理的一个维度。”钱军说。“GPU整个的渲染的产品线,和核心的研发其实一直在我们的计划当中,只不过我们一贯不会对外过多的宣传。”他表示,瀚博发布的统一计算架构(Vastai Unified Compute Architecture)软件平台,目的就是要让之后可以有更多的硬件加速核融入进这个框架里。“所以以后不要吃惊,我们还会有另外的一些加速核加到我们这样子的一个产品线里面。”在那些拥趸眼里无敌的英伟达,在这些真正日以继夜做着国产替代实践的人们眼中,也不是无懈可击。“相信我,再好的软件工程师他也会犯错,再好的软件团队也会犯错。所以这个地方一定是一个循序渐进,不断地把生态做出来的过程。”这些策略也在被一点点增加的市场份额印证着,更多的国产芯片进入各家的数据中心,也击碎着更多的流言蜚语。“没有客户会在选择一款芯片产品时候先讨论一番它配不配叫GPU。”一名壁仞的员工表示。最能决定订单的,就还是TCO(总体拥有成本)——一个新产品究竟能帮客户省几个亿,省多少工程师和他们的投入的时间,都是可以计算的东西。而多位国产GPU 厂商的高管和负责人也表达了一个相同的观点:未来中国GPU厂商们建立的生态,必须是一个开放的生态。“我希望这个规则是公平的、开放的,然后让更多的人来竞争。国内需要有领袖级的公司出来做这个事情。”

 

 

 明年是英伟达成立的第30年。在1993年,黄仁勋、克里斯·马拉科夫斯基和卡蒂斯·普里刚刚创办了一家游戏显卡公司,没人想过它后来会变成今天的英伟达。“当时我们没有任何市场机会,但我们看到一股浪潮即将到来。”马拉科夫斯基回忆称,“在加州海滩有一个冲浪比赛,它的举办窗口只有5个月。当日本的海边出现某种浪潮时,他们会告诉所有的冲浪者到加州来,因为两天后浪潮就会来到这里。这就是我们当时的情况。”

今天的人工智能又进入了一个新的激变时期,下一波浪潮眼看也要到来,它很可能比黄仁勋们在加州海边苦苦等待的来的更明显和汹涌,而这一次,中国创业者有机会离海更近。

 交通一张图前沿风向

地图,作为当下智能交通整体路网管理系统不可缺少的底层基础架构,近年来越来越受到政策和市场重视。2021年,《国家综合立体交通网规划纲要》《交通运输领域新型基础设施建设行动方案(2021—2025 年)》中均将基础设施全要素、全周期数字化作为建设目标和重点任务,并对精准定位、车道级应用等高精度时空信息服务方面提出了要求。规划纲要中也明确提出了“构建高精度交通地理信息平台,加快各领域建筑信息模型技术自主创新应用”。

在此背景下,加快推动智慧公路、高精度GIS+BIM等技术应用和标准化,以现代信息技术赋能公路“建设、养护、运营、服务、治理”全业务、全周期数字化,成为了行业地图建设发展的主流方向。

11月30日,在2022年腾讯数字生态大会智慧交通专场上,腾讯面向道路交通发布了新一代地图产品方案--数字交通孪生地图,推动智能交通行业交通一张图从1.0向2.0快速发展。
“交通一张图”1.0,需要再迈出一步

交通一张图的概念早已有之。

比如早期的城市交通管理领域主要注重宏观层面,如城市交通大脑的建设,就是在静态的高精度地图底座上将数据呈现,方便交通管理部门直接观察城市交通运行情况;当下城市全息路口、全息路网等建设,也都是利用AI、大数据等技术手段采集的交通数据信息与系统底层高精度地图进行结合,形成可视化的数字地图。

随着城市交通的发展,交通管理部门对交通一张图的建设需求不再停留于1.0的静态呈现,而是希望地图可以灵活多变地适用于更多的细分应用场景,包括当下智慧城市建设发展衍生的新需求,例如实现实时孪生演示整体城市交通运行情况并辅助决策展开,同时帮助城市管理部门灵活掌握地方区域运营和商业生态服务运营的实时动态。

高速公路领域同样如此。“视频一张网”“全国云联网”等早期交通一张图的建设,就让交通管理部门注意到了交通地图建设的重要性。当下智慧高速的快速发展,离不开覆盖规模日益提升的新型道路基础设施,而逐渐增多的设备管理运维服务以及出行服务需求,以及车路协同、智能网联等相关业务需求的增加,也在进一步要求交通一张图的发展,在满足B端交通管理部门管理运营整体路网能力提升需求的同时,探索可持续的运营模式,拓展面向C端的服务场景。

随着交通一张图1.0的建设逐渐被行业所认可的同时,更多的问题却也接踵而至。由于建设方、运营方的具体需求不同,所建所选地图的标准也不尽相同,使得实际道路情况变化无法在地图上及时更新或叠加,严重影响交通管理者对道路情况的感知研判处理;同时,越来越多的企业在参与交通一张图建设时,对交通信息数据和权限提出了更高要求,数据安全问题备受管理部门重视。

“在当下的数字交通建设中,每一个项目里面都有图的内容,很多项目里面的图是零散的,数据是独立的,引擎是独立的,还没有形成共建共享的机制,”腾讯智慧交通副总裁谢建家在媒体会上表示:“这使得每一个项目里面的图的能力和沉淀形不成积累,不可运营和服务。”
行业需求变化下的新机遇

随着《交通强国建设纲要》《国家综合立体交通网规划纲要》和《“十四五”现代综合交通运输体系发展规划》提出的加快推动交通基础设施高质量发展,加快建设交通强国,适度超前开展基础设施建设等要求的逐步落地,交通基础设施规模化建设直接带动了地图项目的发展。

交通行业对“一张图”的建设需求愈发清晰,路网全域实时感知、大数据能力、灵活数字引擎、开放平台、信息安全等核心能力建设成为交通管理部门关注要点,同时要更好地激发数据价值、利用数字资源,从而让更多的企业实现可持续运营,并探索更加成熟的商业模式。

数字孪生、云计算、融合感知等技术在近两年来深入应用于交通行业,让交通地图的建设有了新的目标,特别是数字孪生技术的发展和应用,让静态高精度数字地图的应用灵活多变起来。

而这正给在数字孪生、大数据、AI等新技术研发应用占据优势,同时兼有地图业务的互联网科技企业提供了更多机遇。

“腾讯作为一家原生数字化企业,在数字平台、数据价值挖掘等方面有着深厚的积累和沉淀。”谢建家表示:“腾讯交通团队整合了腾讯在云、图、自动驾驶、5G、数据安全建设等方面的技术积累,从我们的优势领域出发,将新一代地图建设作为我们实现价值的新机遇。”

随着交通行业的快速发展,除了交通管理建设领域需求增长的同时,自动驾驶、辅助驾驶、车路协同等业务场景也对地图提出了更精准、更鲜活、可实时计算的新要求。此外,目前交通行业正面临的数字化转型升级、数字产业链的建设,也对能力资源交易、数据价值挖掘等业务发展服务平台提出了需求。

谢建家对赛文交通网说道:“腾讯数字交通孪生地图的推出,顺应了当下行业发展的趋势,随着‘十四五’规划、交通强国等政策落地实施,行业建设需求愈发明确,让我们对构建新一代数字交通地图有了更多的新思路。”
探索2.0,腾讯数字交通孪生地图

交通行业的地图从1.0到2.0,有哪些区别?赛文交通网认为主要体现在以下几个方面:从独立应用到互联互通、从静态到动静态一体、从二维到二三维一体,从基础设施到可运营可盈利平台……

相对于交通一张图1.0的建设,此次腾讯推出的数字交通孪生地图应用范围更广,不止是支持养护收费、桥梁检测等传统交通场景,还进一步支持辅助驾驶、车路协同、自动驾驶、智慧高速等应用场景。谢建家表示:“从支持的广度来看,我们发布的是全场景的数字交通地图”。

 

 

 在架构思路上,腾讯数字交通孪生地图以BIM/CIM、高精地图、数字孪生技术为基础,融合了高精地图、路侧实时动态感知、时空大数据和交通行业数据等多源数据,打造了动静态一体化、二三维一体化的新一代孪生地图,它具有 “实时可计算,服务可运营”两大核心特征,下连万物,上长应用,支撑业务全流程,服务智慧化场景建设。

“腾讯数字交通孪生地图既是一个完整的方案,同时每个模块也可以解耦单独售卖和服务,从而满足多个应用场景下的不同需求。”谢建家说道:“例如我们与高速管理部门合作,腾讯提供了ETC路径还原能力,就是一个PaaS模块,只需对接产品服务接口即可运营使用,并对外提供服务。”

赛文交通网了解到,相对行业中常见的数字地图,在底层能力层面,腾讯数字交通孪生地图更加注重实时感知与实时孪生,前者是实时可计算的基础前提,后者则是实时可计算的核心驱动。

在感知层面,腾讯数字交通孪生地图可以精准接入道路和城市等多领域雷视融合感知系统,对全车道机动车、非机动车和行人等多种目标进行实时感知,并能够在车道级高精地图上对动态目标的运行轨迹进行精准还原。

在地图基础能力层面,腾讯作为国内三大互联网地图厂商之一,早在十几年前就推出了自己的地图服务,并且具有多项甲级资质。同时,腾讯数字交通孪生地图还支持北斗等多种GNSS(全球导航卫星系统)高精定位服务,定位精度达到了厘米级。在传统方式下,分别采集生产标、高精地图数据,底层没有实现打通,难以实现关联匹配,这也是行业面临的普遍困点。对此,腾讯采用一张图的数据生产模式,对道路级标精数据和车道级的高精数据采用一体的数据模型进行存储和更新。

此外,腾讯数字交通孪生地图还接入了信号灯等交通行业数据,以及C端广泛应用生态背后的时空大数据,并实现了与桥梁、隧道、场站等BIM模型的无缝融合,完成了由二维向二三维一体的演进升级,在数据质量、完整度和准确度等多个维度均形成了行业领先优势。

在多源数据互通融合的基础上,通过数字孪生技术,可以对真实交通环境进行精准实时还原。

但在腾讯看来,还原只是第一步,并没有真正释放数据的价值。近年来,腾讯在数字孪生领域一直强调“实时可计算”这样一个标签,也就是在仿真建模的基础上更进一步,将物理世界打造为可计算的数字时空,并根据计算结果对实时交通态势进行仿真、推演、和预测,为交通管理和运营提供高效辅助。包括实时数字孪生在内,腾讯数字交通孪生地图的能力引擎都是灵活可扩展的,采用了松耦合、模块化设计,支持按需扩展,为业务应用提供统一计算能力。

C2B是腾讯做产业互联网的优势,也是这家企业一贯的战略思路。腾讯数字交通孪生地图“服务可运营”的理念主要通过C&B联动能力和开放平台来实现,既能够丰富场景应用生态,也能帮助服务的广泛触达。

在C&B端联动方面,腾讯数字交通孪生地图既是B端应用底座,也是C端服务底座,可支持多端的可视化渲染,一云多端,多屏互动,包括大屏端、PC端、车端、移动端都可以支持。在移动端支持app,也支持小程序,与C端直接互通,为驾乘人员提供伴随式出行信息服务,有效提升信息服务的触达率。

在赛文交通网看来,腾讯的孪生地图开放平台就像是数字地图的“能力商店”,既可以实现数字资产的高效运营和灵活交易,也能提供低代码、组件化的开发形式,吸引更多开发者参与应用生态的构建,从而迅速形成孪生地图的应用开发生态圈。
写在最后

毫无疑问,“一张图”模式已经成为了建设数字交通的热点,更是重点。但随着海量数据的打通和汇聚,一些衍生的问题也随之而来,其中行业普遍关注的一点是:一些敏感的业务数据尤其是隐私数据的安全怎么保证?

赛文交通网注意到,腾讯在构建自身的数字交通孪生地图时,践行的理念是“物理隔离,逻辑统一、权限可控”,谢建家在不同的场合均强调过这一点,而这也是腾讯一直坚持的数据安全建设运营思路。

简单来说,就是不能直接对所有数据进行简单的汇总,而是针对那些基础层、可开放、可共享的数据,上层敏感的业务数据和隐私数据在权限上仍旧归口于各个相关主体。在赛文交通网看来,这样的建设理念,无疑给行业打了一剂强心针。这样一来,每一位参与者都能够感受到数据的安全,并安心享受参与数据共享的价值。

腾讯数字生态大会作为腾讯一年一度的最大的行业会议,腾讯智慧交通选择此时发布数字交通孪生地图产品,并将其定义为腾讯未来交通生命体的重要组成部分和基座,不难看出对交通数字地图建设的重视,也从侧面展示了行业和市场对交通一张图建设的认可。

再从当下智能交通行业的整体发展情况来看,虽然当下各种系统和平台的建设愈发科技化,但交通管理单位却愈发重视基础能力建设和应用效果,因为随着建设项目的增多和建设规模的扩大,底层基础设施的建设情况决定了上层应用的整体效果。

地图作为最直观的基础建设自然成为关注的重点,同时地图作为连接C&B两端的重点产品,在一定程度上推动了当下交通信息化、数字化建设后的交通数据商业化的探索发展。

腾讯试图推进并走在交通一张图2.0建设的前沿,也更加考验腾讯对交通行业的理解,期待腾讯后续在数字交通地图建设中能为行业带来哪些新的内容。

 

 

参考文献链接

https://aijishu.com/a/1060000000370875

https://mp.weixin.qq.com/s/rI25fhsDZFsejRU4kU429w

https://mp.weixin.qq.com/s/W2Gk_sl2gm2JBtT6l53yoQ

posted @ 2022-12-02 04:43  吴建明wujianming  阅读(430)  评论(0编辑  收藏  举报