汽车芯片-云端芯片-GPU技术

参考文献链接

https://mp.weixin.qq.com/s/wK_tJxT3vWwQ9Q7uvsqMbQ

自动驾驶芯片

自动驾驶会有被“釜底抽薪”的风险吗？

“釜”，是AI技术迭代、智能汽车能力进化。

“薪”，则是底层最基础的高性能AI芯片。

更直白地说，就是目前英伟达统治自动驾驶芯片市场的Orin。

高端GPU的变故出现后，“谁能替代英伟达Orin”，成了眼下必须关注的问题。

英伟达Orin，真就这么关键？

目前来看，英伟达Orin无论在技术先进性、性能指标，还是量产交付能力，的确是独一份。

从性能上来看，Orin采用7纳米工艺，由Ampere架构的GPU，ARM Hercules CPU，第二代深度学习加速器DLA、第二代视觉加速器PVA、视频编解码器、宽动态范围的ISP组成。

同时引入了车规级的安全岛Safety Island设计。

Orin支持204GB/s的内存带宽和最高64GB的DRAM，高速I/O接口与上一代Xavier SoC的接口兼容，可实现275TOPS的INT8算力，是Xavier的7倍，功耗55W。

从技术上来看，Orin采用的硬件配置，与前代最大不同在于引入Tensor Core，支持稀疏计算（170 TOPS），这是一种细粒度的计算结构，可以使吞吐量翻倍并减少内存使用量。

另外，在深度学习加速、内存和通讯、CPU性能等等指标上，都比前一代提高1-2倍。

软件方面，英伟达提供软件开发工具包SDK（Software Development Kit）。

主要是板级支持包 (BSP)，包括了引导程序Bootloader、Linux内核、驱动程序Driver、工具链Tool chain和基于Ubuntu的参考文件系统，BSP也支持各种安全功能（安全启动、可信执行环境、磁盘和内存加密等）。

在BSP之上，有多个用于加速应用程序的用户级库，包括深度学习加速库（CUDA、CuDNN、Tensor RT），加速计算库（cuBLAS、cuFTT），计算机视觉和图像处理库（VPI），多媒体和相机库（libArgus 和 v4l2）。

有实力自研的企业可能不一定用到英伟达提供的开发工具，但这说明了英伟达Orin的高度开放和自定义特性。

在量产交付层面，英伟达Orin已经开始向主机厂、自动驾驶公司稳定交付。

目前上市的搭载Orin芯片的车型，包括蔚来ET7、ES7（搭载4块英伟达Orin），后续包括几乎所有瞄准高阶辅助驾驶的车型。

比如小鹏G9、集度、威马、智己、理想L9等等。

自动驾驶公司，尤其是聚焦L4的玩家，无论是测试开发、商业落地，几乎都绕不开由英伟达Orin支撑的底层计算平台。

所以英伟达Orin的重要性，目前几乎难以替代：

所有量产自动驾驶芯片中，Orin单片算力最高、技术最领先、量产节奏最快。

地表最强，车企疯抢。

而Orin一旦有事，该怎么办？

谁能替代英伟达Orin

英伟达统治自动驾驶芯片市场，除了有在GPU领域深厚的技术实力积累外，另外一个主要原因就是入局早。

2015年，英伟达就推出了第一款面向自动驾驶的芯片PX。

但后来者也并非不是没有机会。事实上，一些可替代英伟达的选项，已经逐渐浮出水面。

可能替代，但不是完全可能

这里说的主要指另外两个国外厂商：高通，以及Mobileye。

其中Mobileye属于自动驾驶老前辈，它的软硬件一体自动驾驶系统，一度是乘用车量产的唯一选择。

目前广泛量产搭载的EyeQ 5芯片，算力24TOPS，与英伟达上一代Xavier处于同一水平。

国内最大的用户，是吉利汽车，旗下几乎全系有智能辅助驾驶功能的车型，都采用Mobileye解决方案。

但Mobileye的局限也在于此，不向主机厂开放数据权限的“黑盒”模式，以及软硬件必须买一套的“捆绑销售”，让它的路越走越窄。

被蔚来、理想等等厂商先后抛弃。

尽管下一代EyeQ 6芯片在技术指标上有望追平甚至超过英伟达，但Mobileye解决方案只能说可以替代，但不是最好的选择。

已经统治智能座舱芯片的高通，在自动驾驶域一出手，便拿出了超越英伟达的产品。

SnapDragon Ride芯片，7nm制程，INT8精度下达到360TOPS算力，整体功耗65w。

性能超越英伟达Orin，而且已经量产上车。

长城旗下魏牌摩卡DHT-PHEV的最新版，首发量产高通SnapDragon Ride，年底交付。据官方宣称可以实现超越普通L2的城市领航辅助功能。

高通当然是可替代英伟达的一个选项，不过作为国外厂商，高通面临着和英伟达一样的风险。

自主替代，有谁可选

声量最大的，莫过于国内厂商地平线，和即将量产的征程5。

地平线征程5基于台积电16nm制程打造，AI算力可以达到128TOPS。

在核心架构上，地平线征程5芯片的CPU部分采用8核心ARM Cortex A55，AI运算单元采用双核心地平线贝叶斯架构BPU（Brain Processor Unit）。

同时，征程5芯片还有2个ISP核心、计算机视觉引擎、2个DSP核心、视频编码解码单元。

量产进度上，征程5已经交付给主机厂进行开发测试，正式量产时间点定在2023年。

地平线之外，华为是另外一个重要玩家。

MDC 810，算力400TOPS，已经实现量产上车。MDC 810并搭载没有支持通用计算的GPU，而是用“特定域架构”的AI芯片Ascend昇腾负责计算。

北汽极狐αS Hi版、长安阿维塔11，以及广汽即将上市的新车，都将搭载华为MDC 810。

国内另外两个有量产希望的自动驾驶芯片，分别是华山2号、驾之芯V9。

分别来自国内创业公司黑芝麻智能和芯驰科技。

黑芝麻的华山2号A1000量产已经在路上，INT8精度下单颗芯片算力达58TOPS，将在江汽集团思皓新车型上首发量产，具体时间未定。

芯驰科技则把自动驾驶芯片的量产目标，直接放在今后面向高阶智能驾驶的阶段。

今年下半年，芯驰将推出算力超过200TOPS的自动驾驶专用芯片。

而量产计划，按照半导体行业普遍规律来看，不会早于2024年。

替代方案优缺点

根据中信证券的最新的《自动驾驶芯片行业研究报告（2022）》分析，这些可替代英伟达Orin的不同玩家方案，从性能和量产节奏来看，优缺点明显。

地平线征程5：

最大的优势是本土化研发和服务，以及国内最为领先的性能参数。

缺点也同样：仍然不及英伟达Orin。

黑芝麻智能，中信在研报中认为其A1000最高算力较英伟达尚有差距。计算平台方案上，通过4块A1000实现和英伟达单板相似的250T左右的算力，也有代差。

但优势同样是量产在即，如果进展顺利，今年年底江汽新车型即将上市交付。

至于华为，真正的优势不在算力有多大、量产有多快，而是针对智能汽车的系统工程能力。

包括芯片、算法、云、V2X、操作系统等等层面。

所以这也是为何MDC方案中，华为并不采用通用GPU，而是选择和华为整体战略布局紧密相连的昇腾芯片。

中信证券认为，华为有能力在智能汽车、自动驾驶研发过程中整合各大巨头资源，大大加快真正的智能汽车落地速度，也许很快就会超过地平线。

但华为值得担忧的地方同样明显：地缘政治摩擦。

至于芯驰科技的V9，则要看今年下半年正式亮相后的性能表现和商业化进展才能下结论。

所以总结一下，要求国内厂商立刻马上拿出和英伟达Orin性能相仿的自动驾驶芯片，不太现实。

现阶段，英伟达对于智能汽车仍是收割之势。

但国内自主替代的产品，已经走到量产前夜，而且可以通过架构、系统、软件的优化，达到和英伟达Orin相当的效果。

而面向高阶智能驾驶的大算力芯片预研，国内头部玩家其实与英伟达、高通这样的巨头并没有拉开差距。

所以，真正的竞争和决胜时刻，还未到来。

庆幸的是，如果自动驾驶也要面临突如其来的高性能AI芯片危机，虽然无法同等替代，但至少不会毫无准备。

AI芯——燧原·宇宙

“燧原·宇宙”是结合端云协同3D互动技术、数字孪生、人工智能算法等多种前沿技术搭建的元宇宙智能世界，以国产自主可控AI算力为数字底座，将燧原科技成立四年来取得的产业落地实绩作为模板与示范，旨在通过燧原科技的产品研发与产业落地经验在虚拟数字世界中的映射与展示，加速金融、互联网、城市、科研等行业的智能化转型与规模化服务，助力数字经济建设，构建具有先进技术水平的数字未来。

算力播种，智慧生芽，致力于打造融合本土人工智能与集成电路产业生态的特色元宇宙。以燧原·智算中心为能量中心，燧原·宇宙主要包括“燧原·大本营”和“燧原·智城”两大区域，在这里你可以和朋友结伴同行沉浸式体验未来世界图景，深入了解燧原科技。

燧原·智算中心是燧原·宇宙中的核心基础设施，作为E级液冷智算集群浓缩了燧原科技多个大规模AI算力中心工程实践。在智算中心云燧智算集群的支撑下，海量数据经处理最终输出并作为行业赋能区域—燧原·智城的养分，超“算”但不超“碳”，大规模、集约化、绿色低碳是云燧智算集群的标签。算力不仅是数字世界的核心生产要素，同样也是推动整个燧原·宇宙蓬勃发展的支撑力。

燧原·大本营

深藏元宇宙智能世界的核心产品技术

大本营全方位展示了燧原不断前进的步伐。2018年3月燧原科技成立，仅用18个月推出第一代云端AI训练芯片，蝉联获得由工信部直属赛迪研究院所颁发的中国芯最高奖—“年度重大产品突破奖”，去年12月发布第二代云端AI推理产品标志着燧原成为中国第一家完成训练和推理迭代的科技公司。燧原科技在点亮“中国AI芯”的路上披荆斩棘、不断超越。还有燧原科技创始人、董事长兼CEO与燧原科技创始人兼COO的虚拟人“空降”现场，亲切欢迎拜访燧原·宇宙的朋友们。

燧原·智城

定义国产AI算力产业落地方法与路径

燧原·智城是燧原·宇宙的高光区域，它是燧原科技所取得的实际产品落地成果在数字世界当中的映射，包括互联网、城市、科研和金融等，集聚形成燧原·宇宙的应用生态。

在互联网行业场景中，以云燧AI训练加速卡和推理加速卡为算力底座，燧原科技通过极致优化性能，助力头部互联网企业实现用户游戏体验极致化，并在内容理解场景中服务上亿用户；在新基建方面，燧原科技依托国产化AI算力基础设施，大幅提升西南核心省会城市智能化服务水平、国产自主可控度及可持续发展能力；不仅如此，为了更好地支撑科研技术创新孵化，在双碳目标的指导下，基于云燧智算机产品方案，燧原科技打造了基于液冷系统方案的绿色低碳超级计算机，结合国家著名实验室国产自研人工智能开源平台，高效支持多类型前沿研究；另外，从满足金融安全角度出发，燧原科技通过与大型股份制商业银行及合作伙伴联合，实现了首个金融行业全栈国产自主可控AI软硬解决方案，助力金融行业OCR的规模化应用。

还有更多场景和隐藏环节等你发掘…

既是新生，也是未来—点亮中国AI芯，助力国产人工智能与集成电路产业生态建设，燧原·宇宙邀您共同见证与探索。

芯片独角兽

一年时间，对于一家芯片企业来说意味着什么？

在去年的世界人工智能大会（WAIC 2021）中，一款中国最大AI芯片引发轰动。

它叫邃思2.0，发布者是上海人工智能芯片独角兽——燧原科技。

与之一同“出道”的，还有基于这款芯片打造的一组云端AI训练产品：

云燧T20训练加速卡
云燧T21训练OAM模组

此举，也正式让燧原科技在造芯浪潮中，成为中国首个将云端AI训练产品“进化”到第二代的公司。

而在与训练相伴相随的推理领域，燧原科技也已于去年12月完成了相应的大动作：

发布推理芯片邃思2.5
发布推理产品云燧 i20

至此，燧原科技成为了国内首家云端人工智能训练和推理产品迭代到第二代的科技企业。

纵观燧原科技的产品研发时间线，让人不由好奇，一年过去了，在今年的WAIC上，燧原科技会有什么新动向吗？

回答这个问题之前，让我们先来快速了解一下燧原科技的云端产品。

从官方公布的信息来看，云燧T系列产品主要针对的是训练，具备高性能、通用性强、生态开放等特点。

其所面向的是数据中心，涉及的训练场景包括互联网、金融、教育、医疗、工业及政务等。

而云燧T系列可以针对文字、动画、音乐、电子竞技游戏等应用场景，实现在视觉、语音语义、强化学习等各技术方向的模型训练，依托的正是其全精度人工智能算力、先进的存储方案、灵活的可扩展性，以及其基于燧原科技独家的智能互联技术——GCU-LARE。

据了解，这项技术专门是为训练加速集群而研发，可以提升单机多卡和多机多卡系统的可扩展性。

如此一来，不论是面对小型、中型亦或是超大规模的深度学习训练场景，云燧T系列产品都可以做到灵活部署。

例如，在杭州的某国内重点实验室，便依托第一代云燧T系列产品搭建了千卡高性能计算的液冷集群，打造了符合国家碳中和政策导向的低碳绿色数据中心。

也正是基于这样的数据中心，实验室将其投入到了打造融媒体生成等解决方案中。

而且更进一步的，基于高能效AI算力芯片“邃思2.0”，燧原科技与浪潮集团，在今年3月份联合发布了“钱塘江”智算中心方案。

可以实现单节点8颗400W高性能AI芯片液冷散热，在50℃中高温水运行，并且使得智算中心的整体PUE（电能利用效率）低于1.1。

不难看出，燧原科技在云端AI训练上的产品，已然是处于“上岗”状态。

那么，在推理方面，燧原科技的产品现在又是怎样的一种情况？

据了解，燧原科技在推理上的产品为云燧i系列，是面向云端数据中心的人工智能推理加速卡。

其所应用的场景则是聚焦在计算机视觉、语音识别与合成、自然语言处理、搜索与推荐等。

燧原科技的推理产品也已经在诸如上海银行OCR识别的场景中落地。

今年，从来自WAIC开展首日的现场图片可以看到：

在产品展示方面，燧原科技第二代训练和推理产品来了个集体亮相：

△燧原科技第二代训练和推理产品集体亮相

在应用场景展现方面，可以说是“面面俱到”。

首先，燧原科技结合端云协同3D互动技术、数字孪生、人工智能算法等多种前沿技术，打造了“燧原•宇宙”：

通过虚实结合的方式，可以参观燧原·智算中心、燧原·智城和燧原·大本营，身临其境般地去感受日常生活中的人工智能技术，深入了解燧原科技。

除此之外，现场还设置了各种体验环节，包括“智慧问诊”、“AI写诗”等互动demo，通过真实的感受让你体验到技术迭代来的领先优势。

△注：燧原科技展台“智慧问诊”体验

除了上述已发布的明星产品，就没有新的了？

邀请函中的新发现

虽然燧原科技目前官方还未宣布下一步的大动作，但在一份邀请函中却是有迹可循。

根据官微发布的论坛议程，我们注意到论坛的一项主要活动是：一体化AI算力中心建设暨燧原科技新产品发布仪式。

因此，今年燧原科技所要发布的新品便是：

一体化AI算力中心。

而从燧原科技今年来业务方向构成来看，也就不难理解此举意在何为。

据了解，燧原科技的业务主要分为三大方向，分别是：

互联网企业
传统行业（如金融、交通、能源、医疗，教育、智能制造等）
新基建领域（包括各地的智慧城市以及智能算力中心）

整体观其覆盖业务，非常突出的一大特点便是“可灵活适配”：可满足不同业务诉求对于所云端训练和推理的需求。

此次燧原科技发布的“一体化AI算力中心”或许就是计划进一步完善燧原科技人工智能产品线，提供软硬协同的一站式解决方案，深化赋能丰富的人工智能应用场景。

至于底层芯片上的更新迭代，其实在去年的WAIC上就已经有所披露——预计将在2023年发布第三代邃思芯片。

那么，除此之外，燧原科技在这次的论坛上还会带来哪些惊喜呢？

问界过万干翻理想、小鹏降价仍扑街蔚来稳住了

北京时间9月1日，新能源汽车销量放榜日又来了，除了比亚迪和特斯拉两大玩家一如既往的没有在第一天公布销量外，基本上能公布销量的新能源品牌都已经公布8月份的销量数据了。
下面是已公布销量数据的新能源品牌及销量情况（单位：辆）：埃安27021、哪吒16017、零跑12525、蔚来10677、问界10045、小鹏9578、极氪7166、理想4571、岚图2429、智己1007，十大品牌累计销量是101036，比亚迪8月注定还是一打十，搞不好特斯拉9月份也能一打十，中国品牌要加油。毫无疑问，销量过万的埃安、哪吒、零跑、蔚来、问界是优等生，问界则首次月销量破万，极氪也不错，月交付来到了7字头，小鹏和理想让人大跌眼镜，尤其是理想8月销量不足5000辆，至于岚图和智己则需要加把劲，智己的销量刚好破千，这是一个有艺术的数字。

根据此前掌握的数据来看，比亚迪8月大概率再创月销量新高，乘联会秘书长崔东树预测特斯拉中国8月交付7.7万辆略低于6月的7.89万辆。理想销量大幅度下滑原因很多，其中一个就是华为问界的出现，小鹏降价促销也挡不住连续月销量下滑，蔚来在完成产品更新后销量稳住了。

01
华为问界干翻理想

在8月份，华为问界月销量破万，这几乎是依靠问界M5这一款车完成的，因为问界M7在8月24日才开启交付，理论上和实际上都交付不了太多的M7，可见M5的竞争力不弱。
在8月份，此前靠着理想ONE一款车吃了差不多两年的理想，在8月份迎来新产品L9交付的时候，理想ONE卖不出去了，这里面的原因可能有几个方面：

一个说法是理想L9抢了理想ONE的订单，但两者起售价相差10万，这是两个不同的预算人群；一个说法是理想马上推L8，李想自己也喊话理想ONE潜在客户可以等，这种操作很直男，也直接导致理想ONE在二手车市场马上贬值2万以上；还有一个说法就是，问界M7开始交付了，M7就是华为用来打理想ONE的一款车型。

从销量数据上看，理想8月份销量是4571辆，相比7月份的10422辆直接腰斩以上，而相比6月份的13024辆几乎就只有零头了，这就是只靠一款车型打天下的车企必然要面对的销量断崖式下滑的风险。对于理想L9，李想的寄予厚望，在尚未发布的时候就说L9交付第二个月就会破万，现在看来是实现不了的了，最终能不能实现月交付过万也另说，更不用说积累的订单消耗完是否又会面临断崖式下滑。

都是采用增程式的动力系统，华为问界和理想就经常拿出来比较，尤其是在问界M7发布后，尺寸和定价完全对标理想ONE来打，很显然，华为问界才是理想最大的敌人。从销售渠道来看，按照华为消费者业务CEO余承东表示，华为在中国坐拥超5000家门店，没理由不卖车，这也是华为卖车的一大优势，按照计划，在2022年底，华为卖车业务将会扩展到1000家，相比之下，2022年理想门店仅有209家。从销售能力上看，华为门店虽然不是专业出身，但门店大多位于商场等人流量密集区域，符合现在汽车销售贴近消费者的趋势，从品牌影响力看，华为背书要比理想高太多了。对于理想来说，8月的销量大幅度下滑有很多原因，更重要的是要看L9、L8的交付能否带来起色了。华为则要看产品的口碑了，还有就是新产品节奏。

02
小鹏降价促销仍扑街、蔚来稳住了

在8月份，小鹏月销量不足1万，虽然9千多销量也还很不错，但是，这是小鹏从7月份开始变相降价促销才拿到的交付成绩，这就不得不让人想到广东话的“扑街”两个字了。要知道，小鹏月销量一度超过1.6万，被认为是有可能是第一家冲击月销2万的造车新势力。
在2022年6月和7月小鹏分别交付了15295辆和11524辆，这意味着小鹏连续下滑了，8月份更是不足1万辆。早在7月份，小鹏是业内第一家开始降价促销的新能源品牌，当时小鹏内部认为这是短期行为，现在看来必须是长期行为，核心问题还是在于产品力问题，小鹏应该较快产品迭代速度，推出有竞争力的产品，否则，即便是即将带来的金九银十也不容乐观。

蔚来在8月份交付过万，在完成了ET7的投放，ES8、ES6、EC6的换代，以及ET5即将开始的大规模交付，蔚来似乎是稳住了，并且有持续好转的可能性。这和蔚来的产品策略有关，蔚来的产品策略是高举高打、售价越来越低，起售价25万的ET5已经是最低了，并且这款产品可能会拜托之前产品左右互搏的格局带来更多增量。哪吒和零跑两个在2021年销量还是二线的新势力，通过自己的努力，在2021年的销量已经能够稳定在1万以上了，晋升一线了。问界在华为的加持下发展非常迅猛，但对于华为来说，这是最好的商业模式吗？最后说一下智己，在7月份智己给的交付数据是1053辆，8月份的交付数据是1007，这是很有艺术的交付数据，实际情况到底怎么样，只有智己本身最清楚。作为同样推出增程式车型的岚图，似乎已经没有办法在销量上突破了，这可能也代表着东风自主品牌的又一次难言不成功的尝试。

英伟达、AMD：确认断供高端GPU芯片

英伟达周三表示，已经收到通知，美国官员要求其停止向中国出口两款用于人工智能工作的顶级计算芯片，此举可能会削弱中国公司开展先进技术的能力。像图像识别这样的工作，阻碍了英伟达在中国的业务。

英伟达股价盘后下跌 6.6%。该公司表示，该禁令影响了其旨在加速机器学习任务的 A100 和 H100 芯片，可能会干扰英伟达今年宣布的旗舰芯片 H100 的开发完成。

英伟达表示，美国官员告诉它，新规则“将解决所涉产品可能在中国被用于或转用于‘军事最终用途’或‘军事最终用户’的风险。”

与此同时，英伟达的竞争对手 AMD 也向媒体表示，公司也已收到新的许可要求，将阻止其 MI250 人工智能芯片出口到中国，但它相信其 MI100 芯片不会受到影响。AMD 表示，它不相信新规则会对其业务产生重大影响。受此消息影响AMD盘后下跌 3.79%。

由于个人电脑需求下降，英伟达已经面临销售下滑。在收到通知的前一天，该公司给出了令人失望的预测，称需要削减出货量以减少过剩的库存。现在英伟达又面临了更大的麻烦。英伟达表示，如果该公司没有获得向中国销售芯片的许可，可能会损失 4 亿美元的销售额。这约占第三财季收入的 6.8%。

英伟达于美国时间8月31日披露了该通知，英伟达公司在一份电子邮件声明中表示：“我们正在与中国客户合作，以满足他们计划或未来购买替代产品的需求，并且可能会在替代产品不足的情况下寻求许可。新许可要求适用的唯一当前产品是 A100、H100 以及包含它们的 DGX 等系统。”

英伟达披露内容如下：

2022年8月26 日，美国政府或 USG 通知 NVIDIA，USG 已对本公司未来向中国（包括香港）和俄罗斯的任何出口实施一项新的许可要求，立即生效。A100 和即将推出的 H100 芯片，DGX 或包含 A100 或 H100 芯片和 A100X 的任何其他系统也包含在新的许可要求中。许可要求还包括任何未来的 NVIDIA 芯片，其峰值性能和芯片到芯片的 I/O 性能等于或大于大致相当于 A100 的阈值，以及包括了这些芯片的任何系统。出口技术以支持或开发涵盖产品需要许可证。USG 表示，新的许可要求将解决涵盖产品可能用于或转用于中国和俄罗斯的“军事最终用途”或“军事最终用户”的风险。

新的许可要求可能会影响公司及时完成 H100 开发或支持 A100 现有客户的能力，并可能要求公司将某些业务转移到中国以外。该公司与美国政府合作，并正在为公司的内部开发和支持活动寻求豁免。

此外，公司正在与中国的客户接触，并寻求满足他们计划或未来购买公司数据中心产品的需求，产品不受新许可要求的约束。如果客户需要新许可要求涵盖的产品，公司可能会为客户寻求许可，但不能保证 USG 会为任何客户授予任何豁免或许可，或者 USG 将在及时。

公司于 2022 年 8 月 24 日提供的第三财季展望包括对中国的约 4 亿美元潜在销售额，如果客户不想购买公司的替代产品或 USG及时向重要客户授予许可或拒绝许可。

A100 和 H100 有多强悍？

相比于英伟达前一代的 Volta GPU，A100 的性能提升了 20 倍，非常适合于人工智能、数据分析、科学计算和云图形工作负载。该芯片由 540 亿个晶体管组成，打包了第三代 Tensor 核心，并具有针对稀疏矩阵运算的加速功能，对于 AI 推理和训练来说特别有用。此外，每个 GPU 可以划分为多个实例，执行不同的推理任务，采用 Nvidia NVLink 互连技术可以将多个 A100 GPU 用于更大的 AI 推理工作负载。

然而，这些在 H100 出现之后显得略有不足了。在今年春季的发布会中，英伟达CEO黄仁勋发布了面向高性能计算（HPC）和数据中心的下一代 Hopper 架构，搭载新一代芯片的首款加速卡被命名为 H100，它就是 A100 的替代者。

H100 是一款针对大模型专门优化过的芯片，使用台积电 5nm 定制版本制程（4N）打造，单块芯片包含 800 亿晶体管。同时也是全球首款 PCI-E 5 和 HBM 3 显卡，一块 H100 的 IO 带宽就是 40 terabyte 每秒。

Transformer 类预训练模型是当前 AI 领域最热门的方向，英伟达以此为目标专门优化 H100 的设计，提出了 Transformer Engine，集合了新的 Tensor Core、FP8 和 FP16 精度计算，以及 Transformer 神经网络动态处理能力，可以将此类机器学习模型的训练时间从几周缩短到几天。

针对服务器应用，H100 也可以虚拟化为 7 个用户共同使用，每个用户获得的算力相当于两块全功率的 T4 GPU。此外，H100 还实现了业界首个基于 GPU 的机密计算。

基于 Hopper 架构的 H100，英伟达还推出了机器学习工作站、超级计算机等一系列产品。8 块 H100 和 4 个 NVLink 结合组成一个巨型 GPU——DGX H100，一共有 6400 亿晶体管，AI 算力 32 petaflops，HBM3 内存容量高达 640G。

与此同时，得益于与 Equinix（管理全球 240 多个数据中心的全球服务提供商）的合作， A100 和 H100 的新型 GPU 通过水冷方式来节省用户的能源成本。使用这种冷却方法最多可以节省 110 亿瓦时，可以在 AI 和 HPC 推理工作中实现 20 倍的效率提升。

今年 5 月份，英伟达曾开源了 Linux GPU 内核模块代码，未来是否还会有更多开源计划，暂未可知。

指向中国超算
从全球 GPU 整体市场格局来看，Intel 得益于在笔记本电脑及传统 PC 行业的优势，一直是集成 GPU 市场的龙头，市场份额高达68.30%。但是，在独立显卡市场，则主要由英伟达和 AMD 两家公司垄断。

根据Jon Peddie Research的数据，2021年四季度，在全球独立 GPU 市场，英伟达份额高达81%，其余19%则被AMD拿下。虽然近两年英特尔推出了Xe系列独立显卡，但目前销量仍相对有限，预计其最新的市场份额可能仍在5%以下。同样，在面向数据中心的高端独立GPU市场，也几乎是由英伟达和AMD两家垄断。

北京半导体行业协会副秘书长朱晶对经济观察网表示，根据消息，被封锁的产品是有足够双精度计算能力的高端GPU，就NVIDIA来说，是以A100算力为基准，比它先进的所有显卡产品都会受限。

朱晶表示，根据消息，被封锁的产品是有足够双精度计算能力的高端GPU，对于低端GPU不受影响。具备较高双精度计算能力的高端GPU主要用于高性能计算领域，包括科学计算，CAE（计算机辅助工程），医疗等方面。

超算中心即国家超级计算中心，由数千甚至更多处理器组成，具备超高算力，被誉为“计算机中的珠穆朗玛峰”，主要满足国家高科技领域和尖端技术研究的需求。

相比之下，普通的数据中心面向所有需要信息技术支撑的场景，包括大量互联网应用。中国的电信运营商、互联网公司都自建数据中心。朱晶表示，企业级数据中心经常采购NVIDIA消息中的A100、H100产品，这些产品都是有足够双精度计算能力的高端GPU，上述断供行为如果落实，造成的波及范围会比较大。

参考文献链接

https://mp.weixin.qq.com/s/9uz54KvN3EmeExmO2FVj3g

https://mp.weixin.qq.com/s/tB7kwXnWqhQt4DGaP6TlMw

https://mp.weixin.qq.com/s/pr3CJOflwP38t1NO_vzuqw

https://mp.weixin.qq.com/s/bWB7mZcdVMzvV7ApYNedEg

https://mp.weixin.qq.com/s/wK_tJxT3vWwQ9Q7uvsqMbQ