AI芯片算力等技术参数分析

AI芯片算力等技术参数分析

AI芯片、算力,国内外对比

核心要点:

  • 大模型对算力的需求主要体现在训练端:在考虑互联损失的情况下,Chatgpt需要一万张A100作为算力基础,算力的硬件投资规模达到10亿人 民币
  • 国内大模型与国外的主要差距是算力层面,没有算力基础,后面算法等发展都无法进行
  • 大模型应用场景会率先爆发于:工具链层面,如ChatGPT和Office产品结合,提高交互和工作效率;语音交互层面,如智能音箱、智能座舱和 智能家居等
  • 国内AI芯片厂商格局:一梯队,有成熟产品、批量出货的企业,包括寒武纪、华为海思、百度昆仑芯、燧原科技等;二梯队,以AI芯片起家的壁 仞科技、天数智心、摩尔线程、沐曦等;三梯队,如海光、景嘉微等
  • 国内AI芯片与A100的差距:已经批量生产的产品,大多都是A100的上一代;各公司正在研发的相关产品,如昆仑芯三代、思远590、燧思3.0 等,都是对标A100,但由于“实体清单”的限制以及研发水平的原因,都还没有推到市场
  • 寒武纪思元590与英伟达的差距:寒武纪主要还是ASIC架构,劣势是通用性会比较差,优势是某些特定应用场景下,算力可以做到比GPU更 高;百度内部的测试结果,590性能接近A100 90%的性能;590基本支持主流的模型,综合性能接近A100 80%的水平
  • 英伟达A800和H800的出货量预期:训练芯片,国内将有近200亿RMB的采购规模;推理芯片,预计采购金额达100亿RMB;国内对英伟达总 的采购需求约为300亿RMB。

Q:大模型在算力端带来了哪些新的需求?

算力需求主要分为两部分,包括训练算力和推理算力。目前来说对训练算力需求非常高,ChatGPT的公开数据显示它的整个训练算力消耗非常 大,达到了3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),换算成英伟达A100芯片,它单卡算力相当于0.6P的算力,理想情况 下总共需要大概6000张,在考虑互联损失的情况下,需要一万张A100作为算力基础。在A100芯片10万人民币/张的情况下,算力的硬件投资规 模达到10亿人民币。而整个的数据中心还需要推理算力以及服务器等,规模应该在100亿人民币以上。

Q:大模型对计算的需求和以往有什么差别?

具体包括在算力,互联等方面 以往大多都是数据中心,超算中心以及各大互联网公司的云计算中心会有相关的算力基础设施需求。训练端:训练算力相关设备主要是英伟达的A100和H100,推理算力主要是英伟达T4卡。ChatGPT的发布使得算力需求增加了,以前算力的商业 应用并没有特别多,主要是推理端像图像识别、语音识别等。大模型的爆发会导致训练的应用场景越来越多,对训练算力的需求会大幅增长,增长 幅度能达到10倍甚至100倍。推理端:也会有相应的增长,但幅度不会这么大。

Q:做好一个大模型的最低门槛就是1万块A100的芯片,这个说法准确吗?

如果对标的模型是ChatGPT,那是需要这样的硬件需求的。但百度文心一言没有达到这个芯片规模,训练算力没有达到ChatGPT的水平,尤其是在上下文互动和逻辑上有较大缺陷。主要问题是文心一言的训练精度不够,这是因为它算力本身的限制。国内目前大模型主要是算力层面和国外差距比较大,这也是制约国内大模型发 展的客观因素,没有算力基础,后面算法等发展都无法进行。

Q:互联网大厂囤芯片以防断供的具体情况? 

2022年美国限制英伟达和AMD向国内出售高性能计算芯片,国内互联网大厂意识到风险,去找英伟达购买。但因为从下单到拿货的周期较长,国内互联网厂商的优先级较低,国内互联网大厂买到的A100以及H100芯片数量是比较有限的。

Q:中国特供版A800和H800与A100和H100的具体差距? 

主要差距是互联带宽的下降。A800的互联带宽从A100的600GB/S下降到400GB/S,H800的互联带宽从H100的900GB/S下降到450GB/S。本身单卡的算力不变,但是集群后,卡间互联的带宽会限制整个集群的算力规模。

Q:国内目前GPU芯片能不能支撑大模型的需求?

国内目前的相关产品都和A100有所差距。一部分是已经批量生产的产品,大多都是A100的上一代,比如寒武纪的思元290、百度的昆仑芯二代、燧原科技的燧思2.0的算力水平都落后于 A100一代。还有各公司正在研发的相关产品,比如昆仑芯三代、思远590、燧思3.0等,这些产品都是对标A100,但由于“实体清单”的限制以及研发水平的 原因,这些产品都还没有推到市场。华为的昇腾910芯片,也是受限于公司被制裁,没有大规模的出货以及销售,可能在政府的计算中心有所使用,但对商用客户端帮助有限。

Q:哪些芯片相关企业会受益于大模型的浪潮? 

首先是算力芯片,包括英伟达的A100和H100,以及寒武纪、昆仑芯、燧原、华为海思、海光、沐曦以及摩尔线程。如果国内的产品能去替代英 伟达的产品,会是一个非常大的机会。经历制裁后,国内的大型互联网企业在采购相关芯片时,目前还是会购买英伟达,但应该也会有相关的国产化替代方案。从生产层面看,还需要高带宽内存颗粒,目前国内的合肥长鑫和长江存储都还做不了,主要是国外的三星、美光和海力士三家企业。产业链上,会带动先进封装相关公司,未来国内芯片厂商会在国内的封装厂做先进封装。除了算力芯片,数据中心建设也需要CPU服务器,会带动国内提供大型服务器的厂商,比如浪潮信息、中科曙光等,以及光模块、调节芯片和散热技术,都会有相关需求。

Q:计算芯片中除了GPU芯片,FPGA芯片、专用芯片ASIC发挥什么作用?

高性能计算芯片不止GPU这个处理架构,比如像寒武纪的ASIC和GPU是同样的应用场景,只是技术架构不一样。比如百度的昆仑芯一代,是XPU-K(自研)的架构。因此算力芯片,不光只有GPU,也包含ASIC、FPGA芯片。

Q:在美国制裁的背景下,国内厂商怎么去替代英伟达的A100,通过什么途径?

目前尤其是在制程工艺的限制,美国2022年10月份的政策限制是互联带宽超过600G,算力超过600T的产品不能使用台积电的先进代工工艺。国内的产品不能超过A100的规格,否则不能使用7nm或者5nm的生产工艺。目前国内有7nm产品的只有中芯国际,从成熟度和产品产能上都和台积电有差距。但即使有差距,国内的公司也会陆续通过中芯国际的生产工艺 去生产相关的芯片。虽然目前工艺限制在7nm,但我们可以通过chiplet等先进的封装工艺将多个7nm芯片高速互联,实现算力的提升。

Q:目前已经在实体清单的芯片公司的情况?

目前华为、寒武纪、海光已在“实体清单”里面,这些公司如果要生产的话,要不就得找中芯国际;要不就得通过类似代理形式或其他渠道找台积电 生产。但后一种方法要面临台积电的审查,但台积电目前整个产线的产能利用率很低,只有约50%,应该不会像之前管的那么严,如果提交的合规报告 或材料符合台积电的要求,比如600+600的审核要求,终端应用场景也不涉及如军工等敏感领域的话,台积电也是能够通过代理方式给这些公司生产的。我估计目前海光、寒武纪可能都是通过这种途径去实现生产的;华为因为本身目标太大,如果量不大的话应该可以,量特别大的话容易被发现。

Q:目前英伟达订单量是否有比较大的变化?

变化大概多大?ChatGPT发布后,首先微软方面肯定是加买了A100和H100,尤其是微软现在主要购买方向是向H100升级,主要买的是H100。国内公司受限于制裁,应该是不能买A100的,A800推出后国内公司应该给了英伟达不少订单。但A800因为还要做一些带宽的限制和更改,所以目前还没有批量出到国内,仍需一定时间,但我预计应该很快就会陆续供给国内。我认为今年英伟达的数据中心业务应该会有一个比较大的增长。因为这些企业都会有一些战略性的备货,如果按照正常节奏买的话,应该不会买这 么多。对于ChatGPT带起的热潮,国内企业可能担心以后会买不到,因此会按2-3倍的量去备货。

Q:如何看待英伟达超级计算服务对AI产业的影响?

我们业内觉得这个东西没有什么特别的地方。国内真正能够做大模型或者有实力去投资大模型的大型互联网厂商,他们不会去租英伟达的超级计算服务,因为没有人愿意把自己的数据放在别人的数据中心里,从数据安全的角度讲,是一个非常大的风险。尤其是像百度、阿里,他们掌握着国内用户一些比较比较敏感的数据,如搜索、购物习惯等。这个比较类似于滴滴,如果这些公司把这些数据弄到英伟达的服务器上去跑的话,这个风险我认为他们应该承担不了,滴滴被罚已有先例。所以我认为从国内来讲,英伟达提供的计算服务,国内客户应该没有什么会去用的,可能一些本身不涉及敏感数据的客户可能会去尝试,但能做 ChatGPT或文心一言这种规模的企业很少会用英伟达的租赁服务或超级计算服务。国外客户可能会受益,因为一些小规模的客户没有能力建ChatGPT规模的算力中心,他们可以通过租赁方式使用英伟达的超算中心作为自己模型 的基础设施设施去实现自己模型的运行。

Q:之前有说法说英伟达超级计算服务可通过阿里云、腾讯云做接口提供给国内企业用户,这是否意味着国内承担不起大算力成本的的中小企业会考虑租用英伟达的超级计算服务?

如果能把数据安全层面的问题解决,至少从数据安全的角度讲,如果国家层面的审核通过,国内也想做大模型的小型企业通过租云服务平台去推动自己的模型。Q:英伟达的光刻计算技术未来会减少多少对于CPU服务器的需求?

英伟达的主要目的不是想替代,发布时提出的目标是要把台积电4万台做光刻用的CPU全换成英伟达的超级光刻计算机。我认为GPU是取代不了CPU的,因为本身两者的运行是不一样的,光刻领域很多是运算的东西,可能GPU有自己的优势。但CPU本身也有控制、调度、流水线的进程操作,能用这么多年有它自己的应用场景和优势。GPU其实擅长计算,并不擅长去做控制、调度的事情。英伟达在GPU里做类似于ARM的CPU去替代,但我认为在应用场景等各方面没那么容易。比如现在企业服务器市场,英特尔和AMD份额稳定,英伟达想要踏足还是有很大的难度,也有一些技术障碍。可能台积电这种特定场景可以替代,但未来想把CPU整个层面上用GPU替代没有那么简单。

Q:目前英伟达和国内供应商的关系如何?

比如做整机的供应商,浪潮集团也被加入限制名单他们不受限制。因为中国政府层面对这些外企目前还没有任何的限制政策,英伟达在国内份额和产业情况应该也带动了不少的先进制造和就业。我认为英伟达跟国内做整机的和架构的供应商,目前都合作都正常,而且英伟达后续应该还有更多订单给到这些供应商。只是做好的高性能计算芯片受限制,不卖给或者降规格卖给国内企业。这些限制主要还是来自于美国政府层面,供应层面应该没有问题。一旦上了实体清单就没办法。因为不管是英伟达还是任何的美国企业都不能跟你做生意。如果他跟你有贸易来往,美国政府就可以对他进行制裁。这个限制范围很大,任何使用美国技术的企业都不能跟你有贸易来往,比如现在不仅英伟达不能跟浪潮之间有贸易来往,甚至像韩国、台湾的企业都受约束。

Q:国内来看,您认为哪些领域大模型会率先爆发应用场景?对算力产业链有什么影响?

目前很多公司宣布接入文心一言,ChatGPT在国内国外的应用场景也都陆续在落地。1)工具链层面:大模型可以做很多事情,比如ChatGPT和Office产品的结合,以前很多东西需要人去写公式、计算,但是现在ChatGPT接入后 Office会变得非常灵活,通过office做交互、实现的话,工作效率会有一个非常大幅的提高。2)语音交互层面:智能交互,如智能音箱、智能座舱,未来肯定会有一个大的提升,现在汽车里用的小度等,其实语言理解能力是很差的,想要交互是很难的,而且体验也非常差;大模型接入后,语音交互层面会做得很好,比如我们在汽车智能座舱里发一个指令,他的理解、执行他就会非 常精确。包括我们用的智能音箱、智能家居等,理解、执行也会比较到位。

Q:目前国内AI芯片厂商的格局?

个人看法,以大算力或者高性能计算芯片为代表看的话:第一梯队:有成熟产品、批量出货的企业,主要包括寒武纪、华为海思、百度昆仑芯、燧原科技,这四家有2-3代更多的产品,技术能力、软件能 力都有一定积累。第二梯队:包括壁仞科技,它去年发布的产品规格很高,但主要还是停留在纸面数据,实测数据、实际性能方面业界和第三方评测机构评价没有那么高,它本身的性能是不及A100的,而且软件层面也还有很多工作要做,目前它只是做了一个软件的雏形,从使用角度来讲离成熟的生态软件、规模化的出货、客户端的个适配还有很长的路要走,现在它也面临着制裁问题、实体清单问题,对于这样的初创企业是生存层面的问题。像天数智心、摩尔线程、沐曦也都陆续有产品推出,但技术能力不及壁仞,只是停留在推理层面,不像第一梯队的企业有更成熟的产品经验,但这几集也都 至少是以做AI芯片起家的,专注于该领域。第三梯队:包括海光、景嘉微,他们以前不是做GPU的,现在过来做GPU。景嘉微也是做GPU芯片的,但在商用端没有多少使用,实际产品性能 不是特别清楚。海光是做X86CPU起家的,GPU的技术能力还有待市场的认可和检验。

Q:训练芯片是1万张A100的话,推理芯片需要多少?如果它跟日活访问次数等有相关性的话,中长期来看推理芯片的情况?

虽然说大模型训练的算力需求量非常大,但是产能模型训练好了之后,实际投入到使用中或是在跟终端的互动中,其实也是需要消耗很多的推理算力,尤其是在访问量大的时候。所以其实不管是微软的智能计算中心,还是百度的智能计算中心,我认为都有相当规模的推理算力。通常数据中心或者超算中心里都会配备推理算力,一般算力的规模或者说数量的规模没有特别少的,尤其是数量。比如我买1万张A100的卡,可能还要配几千张的T4推理卡,当然英伟达现在最新出的L4推理卡也会配在数据中心里,但是目前来看它的规模应该没有训练的算力规模大,但随着访问量或交互量上升,我认为推理算力需求量是不小的。当然推理层面CPU本身也是可以分担一些,尤其是数据中心里用的这种大型企业级 CPU,本身是可以做一些推理的事情,但是毕竟不是专业做运算的,所以我认为肯定还是需要大量的推理卡支持。我认为可能规模比较大或后期访 问量特别大的数据中心,推理卡的数量可能会非常接近训练卡的数量。当然因为推理卡本身的价值、算力没有训练卡大,所以从市值规模看,应该 还是没有训练卡的市场规模大。

Q:寒武纪的思元590跟英伟达相比有哪些差距?

从技术架构或初级架构角度看,寒武纪产品主要还是ASIC架构,ASIC的劣势在于通用性会比较差,优势在于如果某些特定应用场景它把算法固化到硬件里边去,算力是可以做到比GPU更高的。这个特点也决定了它的最终的性能特点,所以我们看到公开信息或一些百度内部的测试结果,寒武纪590在做大模型的训练跑transformer、BERT等大语言模型时,性能非常接近A100,接近90%的性能。但如果跑20-30个主流的模型,我们 会看到可能有些模型如果在算法层面没有做特别的固化优化的话,可能只能达到A100 50-60%的性能。综合来看,基本上主流的模型590都是支持的,综合性也接近A100 80%的水平。

Q:如果美国后续不给ARM的架构授权的话,我们有什么解决方案?

目前不管是国内芯片公司,还是英伟达的AI的云端、推理端架构芯片,内部都用了ARM的CPU去做控制,因为AI芯片的内部,除了ASIC或GPU芯 片的内核以外,一般都会配一个ARM的CPU去做AI芯片、处理器层面或是内部的交互,或者做一些控制层面的事情。所以CPU其实对AI芯片来说也 是一个非常重要的东西。如果我们后面国内AI芯片企业拿不到ARM的授权,一是已经授权的东西还是可以继续用,比如华为、百度、寒武纪已经拿到了A78的授权,但是没有了后续的支持,无法用最新的ARM的架构;二是目前国内同ARM竞争的RISC-V发展的也挺好,它是一个开源生态,如果后续真的国内芯片企业 用不了ARM的话,对它是一个好机会,在性能层面它其实没有比ARM差多少,主要问题在于生态没有像ARM那么完善,如果有更多的开发者去起 来的话,可能生态会慢慢完善起来。

Q:如何看待ARM打算改变授权费模式,从原本的按照芯片价格1-3%收取费用改为按照整机价格收取费用?

按整机价格收取的话可以多要点钱,我们做芯片设计的跟这些IP公司打交道比较多,他们对我们,尤其是国内芯片企业,不光收费贵,而且审计等非常严格。很多时候一次性授权要收取,后面卖出的单颗芯片还要在收取一定比例的费用,所以其实是非常贵的。用这种商用IP,尤其是ARM,用这些国外的大型IP厂商其实代价都是非常大,对芯片公司尤其初创企业来说,花费的成本非常高。但我们还没有自研能力去做出来比较好的IP,很多比较简单的接口IP如走字眼的高速接口,华为、寒武纪等都可以自己做,但ARM目前确实是比较难做。如果ARM还要再后面再涨价的话,会有更多的芯片设计公司转向RISC-V,其生态会慢慢发展壮大,挑战ARM生态。其实ARM一家独大已经这么多年了,我觉得应该有一个像RISC-V这样的竞争对手,不然在国内乃至全球大家都不得不用ARM。这种有点像垄断,像高通之前因收取整个手机的专利授权费用被中国政府罚款后就把收费政策改了,如果ARM这么弄的话,可能我们也会有一些扶持或者制裁措施。所以ARM授权模式的改变不一定能成功,而且如果推行的话有可能刺激RISC-V生态壮大。对于芯片公司的研发者或设计者,转去RISC-V生态也是一个好的解决方案,只是要花一些学习成本。

Q:RISC-V架构的在国内的使用情况?

目前国内RISC-V占有率较低,但增长很快,因此未来会有许多企业去做RISC-V产品。比如,阿里提供基于RISC-V架构的平台及生态服务。寒武纪、华为已经开始使用RISC-V架构。边缘侧AI芯片大多采用ARM架构,因此在专利授权的模式改变和垄断的情况的发生下,会有更多企业去尝试使用RISC-V处理器架构,从而促进整个生态的增长。叠加国内很多企业上了美国“实体清单”,ARM停止服务,促进了RISC-V等开源架构的应用增长。

Q:海光Z100和英伟达A100的差距?和应用领域?

海光训练产品的算力规模不足以支持做数据中心。海光DCU Z100训练算力较小,不到100TFLOPS,只适合一些推理场景,不足以支持大模型的训练,因此没有能力去替代寒武纪、华为和英伟达的产品。目前来看海光缺少大算力技术基础。第一,海光的X86授权CPU技术积累,对做GPU没有帮助。第二,海光的AMD授权软件生态也不足以在大算力的超算领域和英伟达的扩大生态竞争。因此,要做大算力产品还有很长的路要走。从产品层面来讲,海光离传统做AI芯片的企业还是有较大的技术差距。

Q:国内大厂(华为、百度、腾讯等)的大模型和OpenAI大模型的算力区别?

目前国内,已经发布的大模型产品只有百度文心一言,在国内处于AI一哥的地位,占据了先机。但是从试用结果看,和ChatGPT、GPT4的相差还是很大。百度的算力、硬件、算法模型层面都没有做到ChatGPT的水平。具体从算力层面看:第一,算力基础设施规模小于微软的规模水平,因此训练精度水平较低。第二,尽管从国内的角度看,百度对AI算法的投资最多,研发时间最长,技术能力最强,但做AI大模型的时间还是相对较短,因此还需要后续的优化。其他几家大型互联网企业在大模型领域应该都有提前布局,但由于在OpenAI做出产品之前,这个领域一直没有商机和盈利,因此大家都没有落地该应用,没有百度重视这个领域。ChatGPT火了之后,很多互联网企业才加速了推动自己的产品。阿里、头条、360、腾讯等大厂可能陆续会推出产品,但做的也会比较仓促,积累时间不够。

Q:文心一言算力使用的产品? 

训练端:主要使用英伟达产品V100和A100。推理端:除英伟达,还使用部分国产芯片,比如百度、寒武纪等。

Q:大算力模型发展对上游海光和寒武纪厂商有什么影响?

百度、腾讯、阿里等,肯定基础算力的采购需求,叠加政策限制和国产替代,互联网大厂会逐步考虑国产供应商。

Q:目前百度昆仑芯、寒武纪的主力产品是哪些?下一步研发计划?

昆仑芯:目前百度已有两款产品,第一,2018年下半年发布昆仑芯一代产品,基于三星14nm,可以做训练和推理,因此主要用于推理。第二, 2021年发布昆仑芯二代产品,搭载GDDR6高性显存,支持256TOPS(INT8)算力,和V100性能差不多,可以做训练和推理。两个产品都在百度云服务器上部署。第三代昆仑芯产品,预计明年上半年发布,目标达到A100性能。寒武纪:相对来说是国内做的比较早的厂商。2021年发布的思元370,是训练和推理一体的产品,推理算力为256TOPS(INT8),训练算力为 128TFLOPS。出货量在寒武纪云端产品和商用客户端,属于相对较大的。比如,在阿里云、浪潮、曙光等服务器厂商和科大讯飞等AI算法层面的 公司都有批量出货。训练端产品主要是2021年发布的思元290和还未发布的思元590。思元290采用7nm台积电制程工艺,训练算力达256TFLOPS,比英伟达的V100和昆仑芯二代都要强一些,但还不足A100的水平。玄思1000加速器搭载4块思元290芯片,整机算力达到1P。下一代产品思元590,规模能达到A100水平,性能将达到预期。再下一代产品,计划对标H100,但要先解决供应的问题,因此项目节奏会推后。

Q:今年英伟达在国内替代款A800和H800,出货量预期?

国内市场:国内可以规模化买H800和A800的产品的公司最多十几家,主要系大型互联网企业的采购。浪潮、曙光等应该是无法购买。估计一块芯片价格10万人民币,叠加企业要做ChatGPT这种大模型需要芯片1万张起步,能拿出10亿规模的现金流,主要还是大型的互联网企业。个人预期各企业将会有囤货需求,按每家企业2万张的平均需求来计算,在训练方面,国内将会有接近200亿人民币的采购规模。在推理芯片方面,预计采购量将是100亿。总的来看,整个国内对英伟达的采购需求大概为300亿人民币。海外市场:海外需求偏市场化,不太需要提前存货。预计今年也有一个更大规模增长。微软、谷歌和Bing等大企业对大模型的采购需求将增加英伟达芯片的出货量,预期今年将增长30%-50%。

Q:INT8和FP16算力是什么意思?

目前AI芯片或AI加速卡在计算算力的时候,一般采用两个数据格式:INT8(二进制的8位的整型数据)和FP16(16位浮点数)。训练的产品主要 处理是浮点数,推理算力主要处理整型数据。推理端:一般标记INT8的算力。分类检索识别、语音识别、文本识别等推理场景主要处理的数据格式是8位整型数据。1TOPS的算力指1秒钟做1万亿次INT8整型数据运算。训练端:业界主流标记为FP16。因为训练对模型的要求越高,对数据运算的要求也更高更精准。FP16指1秒钟做多少次16位浮点数的运算, 1TFLOPS表示1秒钟做一万亿次浮点数的操作运算。算力的换算关系:(1)整型INT8的算力是128T,则换算成INT16时,算力会减半到64T。(2)浮点数的关系不是减半,浮点数位数更大,算力 下降的更快。例如,英伟达A100的16位的浮点数算力是624T,32位浮点数的算力只有40T。 传统的数据中心的区别在于,在AI常见的Infini Band fat tree 结构下,使用的交换机数量更多,且因为每个节点上行下行的端口数完全一致。 英伟达所采用的 AI 集群模型中,对应的一个基本单元为 SuperPOD。一个标准的 SuperPOD 由 140 台 DGX A100 GPU 服务器、HDR InfiniBand 200G 网卡和 170 台 NVIDIA Quantum QM8790 交换机构建而成,其中交换机速率为 200G,每个端口数为 40 个。基于英伟达方案,一个 SuperPOD 170个交换机,每个交换机有 40 个端口,最简单方式上下各70 台服务器,依次端口互联(上下 1:1 连接)对应的线缆需求为 40×170/2=3400 根,考虑实际部署情况上调至 4000 根线缆需求。其中,铜缆:AOC:光模块比例=4:4:2。对应光模块需求数量=4000*0.2*2=1600 个,即对于一个SuperPod,服务器:交换机:光模块的用量比例=140:170:1600=1:1.2:11.4一个类似 GPT4.0 入门级别要求的需求大约需要3750 台 NVIDIA DGX A100服务器。 根据 IDC 数据,2021 年全球 AI 服务器市场规模为 156 亿美元,预计到 2026 年全球 AI 服务器市场将达到 355 亿美元;2021 年中国 AI 服务器行业市场规模为 64 亿美元。根据 IDC 数据,数据中心场景中,200/400G 端口出货量有望快速提升,22-26 年复合增速达 62%,预计 2026年全球交换机端口出货量超 8.7 亿个,市场规模超 440 亿美元。

最新AI算力芯片专家交流纪要

以下为最新的算力芯片专家调研纪要,对于大家了解AI算力芯片及行业基本面会很有帮助。

摘要:

1.  相比于ASIC芯片,GPGPU具有更强的通用性。主流的AI加速芯片市场上,GPGPU占到90%的市场份额。

2.  传统的小体量模型依赖CUDA,因此GPGPU更加合适,而大模型对于CUDA生态的依赖小,因此GPGPU和ASIC的差距不明显。但是国内的大模型训练目前只有GPGPU可以完成,ASIC还不够成熟。

3.  第一梯队的海光芯片(深算1号)可以运行通用的大模型,只是效率比较差。第二位应该是华为的昇腾910,但是只能运行华为自己优化后的大模型。寒武纪只能运行大模型的推理。景嘉微不属于这个市场。沐曦的C100预期性能对标英伟达的H100,壁仞的BR100受到了美国商务部的限制。目前最值得期待厂商的是沐曦。

4. AI芯片的硬件门槛不高,软件门槛较高。在几个核心专利中国内都没有积累,因此会受到美国限制。

5.如果英伟达新品发布节奏不变,国内外的差距很可能逐渐增大。

6.GPT-3,openai训练使用了1万张A100,训练了14.8天左右。每个用户的请求需要5张A100来推理。GPT-4估计大约需要2万-3万张A100,训练一个月左右的时间。这些比例都是线性的。

7.假设十个大厂要做大模型,可能每家需要2000片A100,换算到国内芯片再乘上一个参数,比如1.5-2,大概是3000-4000片,那么十家就是3万-4万片。但是前提是产品具有充足的稳定性。

8.国内模型品质差,数据集不足,并且算力与海外相差甚远。

9.AI算力芯片折旧一般2-3年,最长不超过5年。从2019年开始,算力需求每10个月会翻一番,产品更新迭代很快。

10.国内几家头部互联网厂家都向英伟达下了1.5万-1.6万的A800和H800订单,每家的金额在十几亿美金左右。大概保证在2024年能有足够的产能。

11.中文没有逻辑对应的语义库,厂商之间数据不互通,并且存在一定问题。

Q:GPGPU和ASIC芯片在AI算力中分别承担什么样的角色?

A:早期开放框架基于GPGPU架构实现,因此软件生态更为成熟,对于初级客户来说,上手使用更加方便。GPGPU的通用性也更好,架构更加适合AI中针对模型的训练以及针对通用模型的部署。对于ASIC芯片来说,如果客户对于模型有深度的研究,也有能力对模型进行特殊的定制化处理,那么ASIC芯片的产品和解决方案有更高的性价比。ASIC芯片由于模型中特殊算子、特殊结构已经完成了硬件的固化,因此对于一些较大的改动,或是一些与硬件架构强相关的计算来说,可能会存在一定的限制。

总体来说,如果模型已经比较成熟,改动都在有限的范围内,那么IC芯片具有更高的性价比,但如果是一个初步的模型,未来需要不断地演进和完善,那么GPGPU是更合适的。

Q:市场上主要关注的AI算力芯片,尤其是海外厂商,如英伟达,都是GPGPU吗?

A:对,市场上主流的AI加速设备,GPGPU大约占了90%的市场份额,剩下的10%是一些FPGA、ASIC类的产品。

Q:如果换一个角度理解的话,我们现在所处的阶段还不成熟,所以更适合通用性强的GPGPU,如果发展成熟之后,才会需要更多的ASIC芯片。

A:这分为两部分解释。第一,传统的AI相对于目前的大模型来说,可以称之为是小模型的AI,比如早期的CV算法(人脸识别、语音识别、自动应答),这些模型的体量很小。而这个时期的模型很多都是基于英伟达的CUDA生态开发的,使用的框架(如PyTorch、Tensorflow)只是利用了一部分,还有一部分是直接调用CUDA的,这个阶段GPGPU是最合适的。如果现在客户的主营业务还是在这个层面上,那么GPGPU会更加适用。第二,如果客户模型已经基本固化,不会发生大的变化,那么在这种情况下可以采用ASIC,ASIC芯片可以针对它原有的模型做深度的定制化。但是大模型有一定的区别,大模型更加依赖框架,比如Tensorflow和PyTorch,而对于CUDA生态的依赖非常小,在这种情况下,GPGPU和ASIC的重要性的差距就变得很小。这个时候,用户更加关注芯片对于框架的支持和性价比,不存在CUDA产生的影响。

Q:国内的大模型主要使用GPGPU还是ASIC?

A:目前能运行大模型训练的只有GPGPU,如英伟达的A100、A800、H100、H800,效率也是最高的。目前ASIC没有大规模的部署,很多ASIC的厂家集中在国内,这些厂商处于早期的阶段,产品不够成熟。但是在一些场景中,我们经过测试发现,ASIC支持大模型的效率高于GPGPU。

Q:国内的厂商,寒武纪、景嘉微、海光和昇腾,性能达到了海外什么层级的水平?

A:第一,景嘉微。我们认为景嘉微不是做AI芯片的厂商,景嘉微的产品目前只能用于图形处理、图像渲染,未来可能能实现光线追踪。目前景嘉微最好的JM9系列产品,大概达到英伟达GTX 1050的水平,只能算入门级GPU。第二,寒武纪。寒武纪最好的产品是思元590,这款产品在文心一言中有小规模的部署,大概几百件,并且也只是文心一言中众多业务场景的一小部分,没有实现大规模部署。我们认为寒武纪的产品只能用于大规模推理中的一小部分场景,还不能做大模型训练,还有许多需要弥补的地方。第三,华为昇腾。华为昇腾只能用于华为自身生态中的大模型业务,通用性差。比如昇腾不能做GPT-3,因为昇腾910不支持32位浮点,而目前大模型训练几乎都要使用32位的浮点,所以华为昇腾芯片只能利用华为开发的框架(如MindSpore),在加上优化好的大模型,比如盘古CV。任何公开模型都必须经过华为的深度优化才能在华为的平台上运行,而这部分优化工作华为还没有开始,所以我们现在认为华为只能运行自己闭环的大模型产品。第四,海光信息。海光的深算1号可以运行大模型,目前正在开发深算2号。深算1号相当于英伟达的P100的水平,但是性价比低,即便在openai最早训练GPT-3的时候,也采用了V100芯片。此外,海光还存在迭代问题,因为海光只拿到了AMD第一代GPGPU的授权。

Q:P100相当于那一年的产品?

A:大概是2014-2015年的产品。

Q:目前海光是可以排在第一梯队吗?

A:对,海光的芯片可以运行通用的大模型,只是效率比较差。第二位应该是华为的昇腾910,但是只能运行华为自己优化后的大模型。寒武纪只能运行大模型的推理。景嘉微不属于这个市场。

Q:其他AI芯片厂商有什么比较重要的吗?

A:沐曦,今年6月会发布第一款AI训练产品C100,但是还需要经过一些内部的调试、软件适配等,预计在今年年底会对外发布。目前来说,从公布的性能指标来说,C100接近于英伟达的H100的水平。壁仞,最早的一代产品BR100,本身指标是对标H100的,但是由于美国商务部的禁止条款,壁仞必须把互联带宽降低一半,因此产品要重新设计,影响产品进度,并且性能也受到了影响。目前BR100还在内幕测试过程中,距离真正的批量使用大约还需要半年的时间。天数智芯的芯片只能勉强做大模型推理。百度的昆仑芯只能勉强用于大模型推理,并且是基于Paddle平台的,通用性差。

Q:是不是目前最值得期待的就是沐曦的产品?

A:对,从团队背景来讲,沐曦的团队背景经验是最丰富的,沐曦的一些核心人员,是参与AMD的MI100、MI200产品开发的,这都是AMD目前最主流的GPGPU产品。从产品规划来看,沐曦产品对标H100,未来实现量产大概与英伟达只有一代左右的差距,因此目前来看是与英伟达最接近的。壁仞还需要再观察BR100的应用情况,因为受到美国商务部禁止,目前还没有看到具体的性能表现。

Q:如果景嘉微和沐曦合作,是否能获得长足的进步?

A:应该可以。首先,这两款产品的底层架构是GPU,景嘉微是传统GPU,沐曦是GPGPU,存在互相借鉴的可能性。如果景嘉微采用了沐曦的产品和技术,那么就能从传统GPU市场一下跃升到AI市场。

Q:AI芯片的门槛应该是非常高的,为什么会有这么多初创型的企业涉足这个领域?

A:首先,AI芯片设计的门槛不是很高,比如GPGPU架构上没有什么高深的要求,而且很多核心部件、核心功能模块都有现成的IP,比如总线接口PCIE、内存以及内存控制器的HBM、DDR、GDDR。很多加速的组件都有现成的内容,可以用成熟的产品代替。所以唯一要做的就是把内部的逻辑加速单元整合起来,发挥对AI计算的优势,所以硬件上门槛不是很高,但是软件门槛很高。因为在小模型的时代,软件必须解决兼容扩大的问题,还要发挥硬件本身的设计性能。在大模型时代,就要做好对于一些框架的支持,所以我们认为设计AI芯片,从技术角度上来说难度不高,主要在于是否拥有整个软硬件的整体设计能力。根据市场上现有模型以及前景模型的内部架构需求,设计硬件的底层,这样才能实现效率提升。否则如果硬件完成,用软件弥补硬件设计的失误,那么就需要消耗很多的软件资源,硬件的效率也不能充分发挥。这些初创企业都是从硬件着手的,门槛并不是非常高。

Q:那这些企业是自主可控的吗?

A:不是纯粹的自主可控,因为一些核心IP都是国外的产品,并且企业依赖台积电。

Q:如果抛开流片不谈,只看设计方面,会不会受到美国限制?

A:会,因为这里面存在几个核心的专利,比如PCIE,目前掌握在cadence和Synopsis这样的公司手里,都是美国公司。HBM基本上只来自于三星、海力士和镁光,如果美国商务部有禁令,这些企业都不能像中国企业提供产品。纯国产化在这方面的确没有相应的积累,所以会被美国卡脖子。

Q:海光是否能做到不受影响?

A:第一个问题是海光在美国禁运产品名单中,所以海光投片只能通过第三方代理公司,导致投片价格会偏高、产能会不足。第二个问题是海光拿不到新一代架构的授权,限制了海光产品迭代,可能会与海外主流产品代差越来越大,这是海光最大的问题。

Q:海光当前的架构是买断的吗?

A:对,这一代架构不会侵权,唯一要解决的是产能供应链的问题。

Q:昇腾、寒武纪、沐曦这三家企业会不会涉及到海外侵权的可能性?

A:昇腾不涉及,因为昇腾涉及的IP都是买断的,但是昇腾面临下一代产品更迭的问题,新一代IP没法拿到海外厂家的支持,所以昇腾全部的IP都需要国内的替代,但是国内目前还非常不成熟。目前昇腾920和昇腾910差距不大,只是生产工艺使用了中芯国际的14纳米工艺。沐曦目前不在美国商务部的黑名单中,用的很多核心是国外的厂家的,所以如果沐曦严格遵守美国高端芯片的条款,短时间内不存在风险,还是可以用国外的IP和台积电。

Q:中国的算力芯片对于美国的英伟达巨头来说,是否还有追赶的可能性?差距是否在缩小?

A:差距在一点点缩小,但是缩小的难度会越来越大。如果英伟达仍然保持每十个月发布一代产品,对于中国厂商来讲,可能差距会慢慢增大。因为硬件的迭代投入是巨大的,风险也很高,中国厂商没有雄厚的资金投入,所以追赶有一定的难度。所以如果英伟达产品发布节奏不变,那么这个差距可能会越来越大,尤其是在美国商务部存在很多禁令的约束情况下。

Q:英伟达的CUDA在未来AI算力芯片中是越来越重要还是不重要?

A:在小模型上CUDA仍然很重要,但在大模型上它的地位越来越轻了。如果未来中国市场以小模型为主,那CUDA还是有很大的影响力,而如果是以大模型为主,对于CUDA的依赖就越来越小了。

Q:能否简单介绍一下为什么大模型对于CUDA的依赖小?

A:大模型底层基于transformer的架构,增加参数和层数。而transformer是完全基于框架实现的架构,并没有使用CUDA的特殊算子,所以不需要必须兼容CUDA。而小模型早期都调用了CUDA的算子,所以是绕不开CUDA的。

Q:国内大厂的大模型底层算力是什么?

A:他们的底层算力都是英伟达的,比如V100和A100。

Q:V100、A100的存量还有多少?

A:目前腾讯、字节、百度的存量都不超过2000片,只有阿里大约能够过万。

Q:那华为情况呢?

A:华为只有自己的昇腾910,围绕盘古。目前比较流行的GPT-2、GPT-3都无法运行。

Q:这是不是说明华为的算法是自研的?

A:对,华为基于开源的算法,针对昇腾910的特性做了很大程度的优化。

Q:GPT的训练和推理需要多少算力?

A:以GPT-3为例,openai训练使用了一万张A100,训练了14.8天左右。使用A100类似的产品,如果以512张卡来训练,大约需要3个月;如果用1024张卡,大约需要1个月;如果用2000张卡,大约需要18天左右。GPT-3或者说ChatGPT,对于每个用户的请求大约需要5张类似A100的卡进行推理,随着并行客户增加,硬件需求线性增加。

Q:如果GPT-4大概量级有多大增长?

A:目前没有公开宣传,我们估计大约需要2万-3万张A100,训练一个月左右的时间。

Q:这些比例都是线性的吗?

A:对,GPT-4和ChatGPT训练的数据集没有太大变化,最大的变化是参数发生变化,算力增加完全依据模型参数增加的比例,数据量大概还是四十多T,没有太大变化。

Q:在中国的算力需求怎么样进行量化?

A:目前国内最大的模型是阿里达摩院的M6,拥有十万亿个参数,体量是最大的。对于大模型训练的场景,国内厂家只能用很短的时间做一次大模型训练,没有专门的训练场景,对于推理来说资源更加紧张,所以目前百度不能广泛地、免费地提供服务。目前国内的模型比国外差,但是参数、体量对算力的消耗不相上下。所以目前国内模型品质差,数据集不足,并且算力与海外相差甚远。

Q:假设十个大厂要做大模型,可能每家需要2000片A100,换算到国内芯片再乘上一个参数,比如1.5-2,大概是3000-4000片,那么十家就是3万-4万片,可以这样理解吗?

A:2000片A100训练GPT-3(不是ChatGPT),大约需要一个月,存在时间代价。目前国内芯片的整体性能只有A100的一半左右,那么大概需要4000片,十个厂商是4万片,这个是正确的。

Q:这需要花多长时间?

A:一般这种训练都是十几天。一个很重要的前提是,国内的产品稳定性都必须绝对高,如果在大模型训练过程中,中间出现一两个节点的宕机,以及一两个节点计算失效,那么这个大模型就要推翻重来一次。一般训练过程中都需要checkpoint保存结果,如果稳定性不好,第一次checkpoint都做不到,就没法实行了。如果产品不稳定,那么大模型训练的时间就会很长。国内某家大模型,最早做训练的时候使用了2400片左右的A100,大概训练了8天左右。后来他们觉得资源耗费大,就去海光平台做训练。海光提供了6万片,用了一个月没训练完成,主要原因就是海光芯片出现掉线的问题。产品稳定性是需要时间打磨的。

Q:这个稳定性、可靠性不是算力本身,更取决与生态和软件。

A:取决于软件和工程能力。在运行过程中,需要解决很多BUG,还有软硬件结合,中间会不会有很多冗余的机制。这些都需要时间和成本作为代价,但是商业客户一般不会给这个机会。我们认为,如果中国想要发展大模型,那政府的介入是不可或缺的,政府介入可以给企业带来资金支持,从而使企业生产更多的产品,或者是让一些企业有意愿部署大规模的算力。其次,政府需要补贴帮助第三方做大模型开发的企业,让他们有意愿在新平台尝试。

Q:AI算力芯片折旧一般是多久?

A:一般2-3年,最长不超过5年。

Q:国内的高端算力芯片是不是很快就报废了?

A:是的,从2019年开始,算力需求每10个月会翻一番,对于企业来讲,他们更愿意追求高算力的硬件产品,对于老产品就会慢慢从业务中剥离。

Q:所以在一两年后,高端算力芯片会面临非常短缺的状态?

A:即使目前AI的算力芯片对于很多大厂来说也是非常短缺的。

Q:AI算力芯片未来是否会演变成寡头垄断。

A:对,不会做到百花齐放。因为在不同应用场景下一家独大,对于整个生态的影响和标杆作用非常明显。如果一家企业有意愿选择替代解决方案,往往要求产品比主流厂家有1.5-2倍的性价比优势,这个对于初创型企业是一个非常大的门槛。

Q:6万片海光GPU出现宕机的情况,是因为运行问题吗?

A:对。第一,海光这代产品时AMD第一代产品,本身没有经过大规模部署和验证,所以存在硬件上的不稳定因素。第二,配合产品需要一个非常稳定软件架构,但是目前运营方开发能力不足。随着集群规模增大,出现错误的风险也增大,而企业很少遇到大规模一次性使用的场景,所以产品不够成熟。

Q:硬件上什么量级的芯片会导致中断?

A:如果单片发生单点故障,那么在检查点和出现故障之间的这部分业务就失效了,需要重新计算。

Q:说明断电数目很多?

A:对,断电数很多并且不定时随机出现,产品之间的稳定性不一致。

Q:对比英伟达的2400片A100,断点大概有多少?

A:总共宕机3次。

Q:所以二者的差距还是很大的。

A:对,并且宕机3次,8天左右的时间计算完成了。海光的产品中间宕机不断,一个月都没有完成。

Q:芯片宕机是不可预知的吗?所以也没有很好的规避方法?

A:对。硬件规避有一定的难度,因为需要纯粹地提高硬件设计,比如信号质量和出现问题后的快速恢复。所以更需要软硬件结合,比如软件要随时检查硬件是否正常运行,如果出现宕机能否及时保护现场。

Q:寒武纪会面临随机宕机的问题吗?

A:寒武纪的产品目前不能用于大模型下,所以没法判断。主要是应用在推理场景,如果出现宕机,只是会导致推理失效,那么可以重新加载,用户端反馈只是一定的延迟,影响不明显。

Q:寒武纪的思元590参数指标比海光的Z100要好,为什么不能进行大模型训练呢?

A:大模型训练需要几个前提。第一,需要有充足的算力,这方面问题不大。第二,需要有较大的内存放置大模型,寒武纪的卡相对内存容量较小,但是这不是主要问题。第三,片间互联的解决方案,寒武纪要比海光差。最重要的,寒武纪对于Tensorflow和PyTorch框架支持不好,不稳定,如果要运行大模型,需要额外的开发工作量。

Q:华为昇腾会面临随机宕机的问题吗?

A:会。但是华为的全套都是自己做的,比如管理平台和框架,所以有一套完整的闭环的解决方案。

Q:如果海光向阿里、百度等厂商,也会存在这样的问题吗?

A:会有所改善,因为百度和阿里在大规模集群调度和部署上具有经验。但是由于海光的产品性能较差,性价比也比较低,因此百度、阿里不会考虑海光的产品。

Q:如果A100的库存用完了,他们宁愿买H100被阉割的芯片,也不会买国产芯片吗?

A:不一定。如果国产算力芯片整体性价比能够达到英伟达60%-70%,就有购买的意愿,但是目前还达不到。

Q:目前国产芯片能达到多少?

A:如果和英伟达比,大约是30%。对于寒武纪,硬件指标大概接近A100,价格比A100低,但是寒武纪的供应链很紧张,没法提供大规模的部署,并且开发需要大量人力配合客户开发,寒武纪不一定有意愿投入。

Q:所以目前来看,国内要做大模型,还是要买英伟达的阉割版芯片吗?

A:对。国内几家头部互联网厂家都向英伟达下了1.5万-1.6万的A800和H800订单,每家的金额在十几亿美金左右。大概保证在2024年能有足够的产能。留给国内厂商的时间不多,既要解决性能问题,也要解决软件兼容问题,难度很大。国内厂家更多关注大模型的推理场景。

Q:推理方面一个用户需要5张A100,那么一亿个用户呢?

A:以chatGPT来讲,需要5张A100才能满足一个客户的一次性访问。线性叠加指的是并行访问,以谷歌为例,并行访问量每秒钟大概是20万次,未来GPT大概在4-5万次。

Q:如果按照十万次算,那就需要五十万张A100吗?

A:对,但是平时可能没有这么多访问的人。即便是峰值访问,不一定必须给客户实时响应,延迟几秒钟是没问题的。

Q:推理卡必须要用A100吗,还是性能低一点的也可以?

A:如果算力接近A100,1秒钟大约生成15-20次,可以满足需求,可以多片集成到一起,所以低端卡可以做到。

Q:所以国内厂商在训练卡上基本上放弃,集中在推理卡上?

A:对。目前大家没有计划做训练,专注在推理上,因为推理的难度较小。昆仑芯大概每秒钟产生3-4个词,那可能延迟在十几秒,对于用户来说不是完全不能接受。

Q:推理卡您觉得国内哪个厂商做的最好?

A:目前还没有大规模部署,所以暂时没法评价,目前大家都在尝试。

Q:国产FPGA企业能否进入AI产业?

A:对于小模型来说,体量小,占用内存小,是可以进入的。FPGA支持浮点,但是需要消耗额外的资源,并且算力也受限。此外,FPGA如果需要门阵列存储,也非常消耗资源。但是对于大模型来说,完全不可以,因为数据类型不符合,内存空间太小,也不支持片间并行。

Q:中国能否通过数据差异化建立比较优势?

A:国内企业在大模型上正探索两条路。第一,能否用大模型裁剪出小模型,应用到特殊场景,就可以解决算力的需求问题。第二,做一些数据方面的工作,但是目前中文数据有先天不足,找不到对中文逻辑深入分析和预判的语义库。其次,国内数据存在孤岛问题,对数据集的体量造成了影响。此外,国内的数据存在很多政治因素,有些东西是不能查询、不能回答的,就导致整个数据的质量下降。如果这些问题不能解决,用数据方面弥补是不现实的,想达到国外大模型在中文方面的水平都很困难。

Q:中国的大模型数据集与国外是不同的吗?

A:对。国外的大模型针对中文数据做了一部分训练,但是比例很小,不到1%。此外,国内的数据集都是针对各家自己的数据进行训练,不是通用的。还有就是国内目前依赖翻译,将内容翻译成英文,再借助英文语义进行推理,文心一言就是这样,最后反过来进行中文输出。

Q:百度的数据质量在大厂里面已经算好的了。

A:百度相对来说,做的更多是通用的数据训练,而其他厂商都是针对特定场景做了训练,比如阿里的M6就是针对淘宝、支付宝客服,没有通用型的。

 

 

参考文献链接

https://mp.weixin.qq.com/s/cLls2VjmamikqlVzb-S-xQ

https://mp.weixin.qq.com/s/4AL95FhsZLQ4uNsbHA2v4w

posted @ 2023-07-27 04:55  吴建明wujianming  阅读(1638)  评论(0编辑  收藏  举报