GPGPU技术杂谈

GPGPU技术杂谈
1.GPGPU行业概述
GPU最初的设计目标是为了提升计算机对图形、图像、视频等数据的处理性能,解决CPU在图形图像领域处理效率低的难题。随着GPU在并行计算方面性能优势的逐步显现以及并行计算应用范围的逐步拓展,GPU逐渐分化成两条分支,一条是传统意义的GPU,延续专门用于图形图像处理用途,内置了视频编解码加速引擎、2D加速引擎、3D加速引擎、图像渲染等专用运算模块;另一分支是GPGPU,作为运算协处理器,并针对不同应用领域的需求,增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以满足不同计算场景的需要。
2.GPGPU市场机会
随着GPGPU的技术发展和相关生态环境的逐步完善,其用途被进一步发掘。目前,GPGPU已经广泛用于商业计算和大数据处理,如天气预报、工业设计、基因工程、药物发现、金融工程等。在人工智能领域,使用GPGPU在云端运行模型训练算法,可以显著缩短海量训练数据的训练时长,减少能源消耗,从而进一步降低人工智能的应用成本。与此同时,GPGPU能够提供完善的软件生态系统,便于各种已有应用程序的移植和新算法的开发,因此全球人工智能相关处理器解决方案仍然是以GPGPU为主。因此,GPGPU是人工智能领域最主要的协处理器解决方案,占据人工智能90%以上的市场份额,在智能工厂、无人驾驶、智慧城市等领域具有广泛的市场空间。
3.GPGPU市场规模概述
人工智能领域的应用目前处于技术和需求融合的高速发展阶段,在运算加速方面逐渐形成了以GPGPU解决方案为主的局面。根据中金企信统计数据,未来几年内,中国人工智能芯片市场规模将保持年均40%至50%的增长速度,到2024年,市场规模将达到785亿元。而随着人工智能相关技术的进步,应用场景将更加多元化,GPGPU通用性好和软件生态系统完善的优势会进一步展现出来,成为该领域的主流解决方案。GPGPU在我国人工智能芯片领域也将占据较大比例的市场份额。
3.GPGPU行业技术未来发展趋势
随着GPGPU在大数据处理、人工智能、商业计算领域的广泛应用,其价值得到了学术界和工业界的认可,技术不断发展,呈现了以下发展趋势。
性能需求不断提升
随着新材料、新能源以及分子药物开发等领域的技术发展,多个新兴领域的算力需求日益增加。此外,近年来人工智能呈现快速增长,推动人工智能发展的三大要素分别是算法、数据和算力,其中算力更是被形容为“支撑人工智能走向应用的发动机”。因此GPGPU需要不断升级硬件来满足日益增长的运算需求。
GPGPU产品提高性能的关键技术包括:进一步提升工艺制程、增加运算核心数量、采用更高带宽的片上存储器、提高存储器的带宽和容量等。通过上述技术创新,GPGPU芯片集成度不断提高,性能逐渐增强,性能功耗比逐渐提升。
另一方面,单一芯片性能的提升已经无法满足不断涌现的大数据量、多任务应用的需求。因此,高带宽、低延时的片间互连总线结构也是未来产品优化提升的方向之一。
GPGPU将成为运算协处理器的主流
运算协处理器基于不同的设计思想存在多条技术路线,包括GPGPU、ASIC、FPGA等。其中GPGPU的代表企业包括NVIDIA和AMD;利用ASIC技术,许多大公司都研发了协处理器产品,包括Intel的Phi和NNP、Google的TPU、华为昇腾、寒武纪思元等;基于Intel、Xilinx的FPGA,出现过很多专用协处理器产品。综合考虑性能、能效比和编程灵活性等方面的因素,GPGPU在协处理器应用领域具有非常明显的优势,目前广泛应用于商业计算、人工智能和泛人工智能等领域。
CPU与GPGPU的异构计算
因为设计的出发点不同,CPU和GPGPU的架构有着巨大的差异。CPU一般由逻辑运算单元、控制单元和寄存器组成。因为CPU有复杂的数字和逻辑运算单元,并辅助有分支预测乱序执行等逻辑电路,所以CPU拥有强大的逻辑控制处理和运算能力,能够处理复杂任务。CPU虽然支持多核结构,但是由于CPU内部设计非常复杂,核心数较少。GPGPU内部包括大量的运算单元核心,其架构决定了GPGPU具有处理并行计算任务的优势。但是,GPGPU每个核心拥有的缓存相对较小,核心的逻辑功能简单,只能执行有限种类的逻辑运算操作。GPGPU内部的核心通常被划分成若干个组,组内核心不能独立工作运行,需要协同工作共同完成运算任务。
CPU和GPGPU的结构特点不同,适用于不同的应用场景,把两者结合起来可以充分发挥各自优势,CPU处理复杂的逻辑控制并进行运算管理,GPGPU用于对各种大规模并行计算进行加速。CPU+GPGPU的异构运算架构可以让系统具有更大灵活性,满足复杂场景的不同需求,能够较大幅度地提升单独使用CPU或GPGPU的任务执行效率;CPU和GPGPU之间还可以通过内存共享等方式进行数据交互,发挥异构计算的优势。
GPU产业链及市场竞争格局
1.GPU产业链
GPU产业链主要包括三大环节:设计、制造和封装。GPU整体商业模式包括三种:IDM、Fabless和 Foundry。
IDM模式:指将GPU产业链的三个环节整体化,充分结合自主研发和外部代工,集设计、制造、封装为一体,公司垂直整合GPU整体产业链。
Fabless:充分发挥各企业比较优势,仅负责芯片电路设计,将产业链其他环节外包,分散了GPU研发和生产的风险。
Foundry:公司仅负责芯片制造环节,不负责上游设计和下游封装,可以同时为多家上游企业服务。
GUP产业链上游,GPU设计基本以英伟达、超威半导体、英特尔三强垄断,中下游台积电凭借先进的4nm、7nm工艺及 CoWoS 封装技术产能领先,三星电子、格罗方德半导体、英特尔产能落后,且在产品工艺上与台积电相比优势不大,此外,在封装测试环节,国内厂商日月光、江阴长电 、华天科技 、宏茂微、华虹宏力、通富微电等具有布局。
2.GPU市场竞争格局
全球GPU市场中,基本被Nvidia、Intel和AMD三家垄断。英伟达市场份额独占鳌头,国际呈现三强格局,国内厂商加速布局。英伟达凭借技术及产能优势,在移动端、AI 服务器、自动驾驶领域具有较大话语权。
国际市场调研机构Jon Peddie Research数据显示,2023年四季度独立显卡市场英伟达占据了全球80%的份额。英伟达2024财年(即2023年1月-2024年1月)报告披露,游戏GPU、创意工作GPU两大市场收入120亿美元,同比增长13.1%。
国内市场方面,我国厂商 GPU 市场份额较小,正处于技术追赶及国产替代环节,目前国产 GPU 在数据中心、人工智能以及通用计算型 GPU 领域均实现产品布局,未来随着国内数据中心、智能驾驶及终端侧 GPU 市场需求的提升,国产 GPU 市场份额有望实现渗透。
GPU应用场景不断扩大拉动GPU市场空间迅猛增长,根据Verified Market Research预测,2028年全球GPU市场规模将达到2465.1亿美元。
GPU市场主要应用场景可概括为:AI&数据中心、智能汽车、游戏。AI&数据中心:新一轮AI对算力需求远超以往,ChatGPT类语言大模型底层是2017年出现的Transformer架构,该架构相比传统的CNN/RNN为基础的AI模型,参数量达到数千亿,对算力消耗巨大,对算力硬件有大量需求。随着对商业数据和大数据处理要求算力的不断提高,GPU的通用计算能力正在越来越广泛地被应用于数据中心和国家超算中心的建设。
智能汽车:智能汽车方兴未艾,自动驾驶和智慧座舱是智能汽车发展的主要方向,均需大量使用GPU。
游戏:游戏业务是GPU应用的传统领域,对游戏画面进行3D渲染,英伟达的游戏业务稳中有进。
来自英特尔、AMD、谷歌的竞争
TechInsights 分析师詹姆斯桑德斯 (James Sanders) 表示:“人工智能硬件还不足以匹配人工智能软件的快速进步。因此,英伟达GPU将会面临更多的竞争对手,比如谷歌的TPU、AMD的GPU、英特尔的AI芯片和GPU。”
桑德斯进一步指出:“我怀疑,由于人工智能的发展,它必须从英伟达对于市场的垄断,走向多元化,这是不可避免的。”
英伟达GPU的短缺和高昂的成本,帮助了 AMD 和英特尔等竞争对手,这两家公司在 2023 年凭借自己新的数据中心GPU,显示出了快速增长的迹象。
TechInsights 的数据显示,2023 年 AMD 的AI芯片出货量约为 50万颗,而英特尔则以 40万颗的出货量填补了剩余的空白。
目前,AMD 的 MI300 系列 GPU 市场表现良好,已锁定微软、Meta 和 Oracle 的采购订单。在 今年4月份的财报电话会议上,AMD 首席执行官 Lisa Su 表示,MI300 的销售额在不到两个季度内就达到了 10 亿美元。
在财报电话会议上,AMD CEO苏姿丰还表示:“我们现在预计数据中心 GPU 收入将在 2024 年超过 40 亿美元,高于我们 1 月份预计的 35 亿美元。”
在本月的Computex 2024展会上,AMD 还表示将每年发布新款 GPU,其中计划今年发布 MI325X,2025 年发布 MI350,2026 年发布 MI400。
显然,AMD 正在跟随英伟达每年推出一款数据中心GPU的蓝图。英伟达在Computex 2024展会也宣布Blackwell芯片现已开始投产,2025年将会推出Blackwell Ultra GPU芯片。下一代AI平台名为“Rubin”,将集成HBM4内存,将于2026年发布。
英特尔目前则专注于 Gaudi AI 芯片,其最新推出的Gaudi 3 芯片性能和能效均优于英伟达H100,但是其价格仅为H100 的一半:对于那些不想为每张 H100 卡花费超过 30,000 美元的公司来说,这是一个诱人的价格。但这种芯片不像 GPU 那样灵活通用。生成式 AI 模型必须经过特殊编程才能在英特尔 Gaudi 芯片上运行,这需要付出很多努力。
相比之下,英伟达和AMD的GPU 更为通用,可以适合运行各种模型,英伟达的GPU有CUDA加持,更具优势。因此,英特尔也在开发下一代的面向AI和HPC的代号为“Falcon Shores”的数据中心GPU。不过,有消息称原来的Falcon Shores GPU遇到了问题,现在正在重新设计,计划于2025年发布。
英特尔首席执行官帕特·基辛格 (Pat Gelsinger) 在 4 月份的财报电话会议上表示,Falcon Shores “将 Gaudi 3 的出色收缩性能与完全可编程的架构相结合……随后我们将积极推出 Falcon Shores 产品” 。
基辛格还表示,Gaudi 3 让英特尔在 AI 芯片市场站稳了脚跟,英特尔目前预计“2024 年下半年的AI加速芯片收入将超过 5 亿美元”。
TechInsights 的桑德斯表示,考虑到英伟达GPU的供应和价格问题,其他的AI芯片厂商有着很多的机会,尤其是谷歌的 TPU。
桑德斯表示:“谷歌定制的TPU芯片相比亚马逊AWS、AMD、Ampere 等厂商的定制AI芯片工作产生的收入更高。”
谷歌于 2013 年就开始自主研发云端AI加速芯片,以满足加速内部工作负载的需求,距今已有近 10 年历史。在2015年推出自研的TPU以来,谷歌一直推动其 Google Cloud 数据中心采用自研TPU,目前已经发展到了名为 Trillium 的第六代TPU。与 TPU v5e 相比,Trillium的每芯片峰值性能高出 4.7 倍,HBM 内存容量和 HBM 内存带宽也高出两倍,能效提升了67%。同时谷歌还新发布了自研的基于Arm架构的数据中心处理器Axion CPU ,计划于今年晚些时候上市。
桑德斯说:“由于某种奇怪的市场力量融合,谷歌最终成为了第三大数据中心芯片提供商(按收入计算),仅次于英伟达和英特尔。”
TechInsights数据显示,自2015年推出自研的TPU以来,尽管谷歌没有对外出售自研的TPU,但其2023年自用的TPU芯片量已经突破了200万颗大关。就出货量来看,谷歌已经成为了仅次于英伟达的全球第二大数据中心AI加速芯片供应商。
国产GPU的优势与挑战
优势
技术创新:国内企业在GPU技术研发方面不断创新。例如,登临科技、芯原股份、景嘉微等公司推出的高性能通用GPU芯片在性能和功耗方面具有竞争力
市场需求:中国GPU服务器市场规模不断扩大。据IDC预测,到2024年,中国GPU服务器市场规模将达到64亿美元。国内企业有机会在这一市场中获得更大份额
自主知识产权:国内企业在GPU设计和制造方面逐渐拥有自主知识产权。例如,芯动科技推出的“风华1号”填补了国产4K级桌面显卡和服务器显卡的空白,为国产新基建、云游戏、云桌面等产业提供支持
生态系统建设:国内企业积极构建GPU生态系统,与合作伙伴、开发者和用户紧密合作,共同推动产业发展。
挑战
技术创新:加大研发投入,不断推动技术创新。从架构设计到制造工艺,都需要持续改进,以提高性能、降低功耗,并满足不同应用场景的需求。
人才培养:培养更多的芯片设计和制造人才。高端GPU的研发需要跨学科的知识,包括电子工程、材料科学、计算机科学等。吸引优秀人才,建立强大的研发团队至关重要。
生态系统建设:构建完整的芯片生态系统。不仅要有高性能的GPU芯片,还需要配套的软件、开发工具、应用场景等。与合作伙伴、开发者和用户紧密合作,共同推动生态系统的发展。
市场拓展:积极开拓国内外市场。高端GPU的应用领域广泛,包括数据中心、人工智能、游戏、科学计算等。通过市场推广,提高国产GPU的知名度和市场份额。
质量和可靠性:确保芯片的质量和可靠性。高端GPU通常用于关键应用,如医疗、航天、国防等。因此,质量和可靠性是至关重要的考虑因素。
GPU市场规模及竞争格局如何?
1.市场空间:2022中国独立GPU市场规模超百亿美元,游戏运算百亿元以上
GPU 行业为我国企业提供了相对广阔的市场空间。根据 Verified Market Research 研 究,2022 年全球 GPU 市场规模约 450 亿美元(含 GPGPU)。其中中国大陆方面市场规 模约为 111 亿美元。下游细分市场方面,我们可以按照英伟达营收结构来进行分析,在全球独立 GPU 市 场中,近年来英伟达占比始终在 80%左右,可以一定程度上反映全球市场情况。
  
按照下游行业来分,在 GPU 市场中,最主要的是游戏 GPU 和数据中心 GPU 两大部 分。其中,在数据中心 GPU 领域,英伟达长期处于一家独大的局地位,其他厂商份额很 少,AMD 的 Instinct 系列数据中心 GPU 第一代产品 MI100 在 2020Q4 才得以推出,目前 所占份额较少。因此可以将英伟达的数据中心业务收入近似为数据中心 GPU 市场空间。 可见,数据中心 GPU 增长较快,2021 年已经达到 GPU 市场的约 1/3,22 年已经超过了 英伟达营收的一半。游戏 GPU 长期以来占比高于数据中心 GPU,虽然 2022 年被数据中 心业务超越,但预计长期仍有望保持稳定增长,其余产品占比较低。从英伟达营收可见, 全球游戏 GPU、数据中心 GPU 的市场空间均在百亿美元以上。
根据英伟达和 AMD 两家在中国大陆地区的收入占比情况,我们可以估算中国大陆地 区的下游细分市场空间。近年来中国大陆地区在两家公司总收入中的占比均为 1/4 左右。 再结合英伟达历年收入,假设全球和中国下游出货结构没有明显差别,我们可以估算,中 国大陆地区游戏 GPU 和数据中心 GPU 的市场规模均在百亿元以上。
2.竞争格局:图形/GPGPU两大市场,信创市场相对独立
在当前中国近百亿美元的市场空间中,英伟达与 AMD 占据绝大部分,但一批国产 GPU 公司已经涌现,例如国内稀缺的高性能 CPU+GPGPU 公司海光信息,创业公司壁仞科技、 摩尔线程、芯动科技、天数智芯等公司,其中部分已经推出量产产品,性能优良,同时还 有景嘉微以及中船重工 709/716 研究所等专攻信创市场的公司或机构,未来有望逐步占据 市场空间。 整体来看,国内传统 GPU 企业多采用自研 IP 或可控 IP,因而能够深入信创市场。
而创业公司方面,通常有业内知名大厂的高管团队,并结合商用 IP,快速开发可用产 品,抢占商用市场。
如何兼容cuda?
2024年2月,英伟达 CUDA 11.6 及更高版本安装出现新规:“不得对使用 SDK 元素生成的输出的任何部分进行逆向工程、反编译或反汇编,以将此类输出工件转换为目标非 NVIDIA 平台。” (You may not reverse engineer, decompile or disassemble any portion of the output generated using SDK elements for the purpose of translating such output artifacts to target a non-NVIDIA platform.,"那么,未来兼容CUDA的AI芯片路线无法再发展了吗?
结论:采取兼容CUDA技术路线的芯片企业暂未受到影响
兼容CUDA的方法多种,一是重新编译底层二进制代码,二是API接口兼容或编译。
(1) 重新编译底层二进制代码。
如AMD的ZLUDA通过简单替换为ZLUDA库实现CUDA兼容。ZLUDA库对CUDA API进行转换,未经修改的CUDA二进制文件现在能够直接在ROCm和Radeon GPU上运行。——该方法直接触犯了英伟达新规。
技术优点:转换简单,技术开源
技术缺点:计算效率低,芯片无法发挥最优性能
(2)在API接口协议和编译器层面与CUDA对应一致
该方法不涉及对CUDA SDK输出元素的修改,因此是合法可行的。
英特尔oneAPI、AMD Rocm等自研软件栈工具中,均包括了兼容CUDA的开发软件栈工具。国内企业采用了兼容CUDA的发展路线,在API接口协议和编译器层面与CUDA对应一致,代表企业瀚博、登临、壁仞、沐曦、摩尔线程、天数智芯等。
例如:AMD 和 Intel 都有工具分别将 CUDA 程序移植到他们的 ROCm和 OpenAPI平台。如ROCm生态中提供了两种Hipify工具,一是编译器,将CUDA代码编译成HIP代码,采用的是目前较为成熟的clang编译器前端,只要CUDA代码正确、引入的外部信息均可获得,那么代码就能够得到妥善翻译;二是简单的脚本,采用Perl语言实现文本替换,按照一定规则将CUDA代码中的各种函数名称替换成HIP中的对应函数。
国产AI芯片公司兼容 CUDA 的思路大多与 ROCm 类似。摩尔线程可以通过MUSIFY工具将 CUDA 代码迁移到MUSA平台,正如 ROCm 生态中的 Hipify工;通过自行实现MUSA-X计算库(类似 rocBLAS、rocFFT 等),来实现CUDA API的一对人一替换;通过MUSA Toolkit 来进行编译、调用MUSA程序后端,实现CUDA代码兼容。壁仞科技也开发了BIRENSUPA 平台试图兼容CUDA。沐曦的MXMACA平台也通过自行开发 BLAS、DNN等库, 以及自行开发 Pytorch 等框架的兼容程序,来实现与 CUDA 生态的兼容。因此,此次变更的CUDA规则对国内AI芯片兼容并未有何影响。
  
对于大模型而言,数据处理量巨大,其处理流程包括训练、微调和推理三个阶段。从算力消耗来看,训练阶段的算力需求远高于微调和推理,至少高出3个数量级。因此,在硬件资源的选择上,训练和微调大型语言模型的要求非常苛刻。
在选择GPU时,我们不仅要考虑显存容量,更要关注芯片的算力。因为在实际训练中,我们需要将海量数据切割成不同的批次,然后送入显卡进行训练。显存容量大,意味着可以一次性处理更多的数据。但如果芯片算力不足,每个数据批次的处理时间就会延长。因此,显存和算力必须相互匹配,达到最佳的平衡点。目前市面上,4090显卡是消费级的佼佼者,拥有24GB的显存,而H100和H800单张显卡的显存更是高达80GB,这对于存储大规模模型和数据集来说至关重要。
此外,GPU的显存带宽也是一个关键因素,它决定了GPU芯片与显存之间的数据读写速度。例如,4090显卡的显存带宽为1.15TB/s,而A100和H100则分别达到了1.99TB/s和3.35TB/s,这将直接影响训练速度。
 
参考文献链接
https://zhuanlan.zhihu.com/p/662362290
https://www.yoojia.com/ask/17-13584252573934799697.html
https://www.zhihu.com/question/437500891
posted @ 2024-08-03 03:04  吴建明wujianming  阅读(126)  评论(0编辑  收藏  举报