AMD的旗舰AI加速器推出MI325X对标Nvidia H200
AMD计划于今年晚些时候推出旗舰AI加速器MI325X,提供更高的带宽。
这次发布意味着AMD正在跟随Nvidia的模式,转向了“Instinct”加速器系列的年度发布节奏。
据目前了解的信息,Instinct MI325X与Nvidia的H200非常相似,是AMD在去年12月Advancing AI活动中详细介绍的GPU的HBM3e增强版。该部件是由八个计算芯片、四个I/O芯片和八个内存芯片组成,通过2.5D和3D封装技术组合而成,是迄今为止最复杂的部件之一。
尽管CDNA 3 GPU芯片推动着即将推出的芯片,但在FLOPS方面并没有实质性的变化。该芯片仍然具有1.3 petaFLOPS的BF/FP16密集性能,或者在降至FP8时达到2.6 petaFLOPS。需要指出的是,MI325X在任何给定精度上都比H200更快。
AMD似乎在扩展其相对于Nvidia的内存优势。发布时,192GB的MI300X拥有比H100多两倍的HBM3,比即将推出的H200多51GB。MI325X将加速器的容量提升至288GB,比H200多两倍,比Nvidia在今年春季GTC上揭晓的Blackwell芯片多50%。
向HBM3e的转移还将提升MI325X的内存带宽至6TB/sec。虽然与MI300X的5.3TB/sec相比,增加了1.3倍,但最初希望达到8TB/sec的目标并没有实现,这与Nvidia的Blackwell GPUs相比。
要了解MI325X的内存配置情况,需要等待今年晚些时候的发布。
内存容量和带宽已经成为AI推理的主要瓶颈。运行8位精度时,每十亿参数需要约1GB的内存。因此,MI325X能够容纳2500亿参数模型,或者在八个GPU系统中接近2万亿参数模型,并且仍然有空间存储关键值缓存。
尽管硬件支持FP8是MI300X发布时的主要卖点之一,但AMD在其基准测试中通常专注于半精度性能。去年底,在与Nvidia争论AMD基准测试真实性时,了解到原因。对于很多基准测试,AMD依赖于vLLM——一个对FP8数据类型没有稳定支持的推理库。这意味着对于推理,MI300X只能使用FP16。
除非AMD能够克服这一限制,否则在H200上运行FP8模型将需要在MI325X上使用两倍的内存,从而消除其巨大的288GB容量可能带来的任何优势。更重要的是,H200在FP8浮点性能上将比MI325X在FP16时更高。
尽管AMD更愿意与Nvidia的Hopper一代产品进行比较,但更值得关注的是Blackwell系列,据称将于今年晚些时候开始进入市场。在其B200配置中,1000W的Blackwell部件承诺提供高达4.5 petaFLOPS的密集FP8和2.25 petaFLOPS的FP16性能,192GB的HBM3e内存,以及8TB/sec的带宽。
尽管如此,坚持使用FP/BF16数据类型进行训练和推理仍然有一定的价值。今年春天早些时候发布的Gaudi3拥有192GB的HBM2e内存和双芯片设计,能够输出1.8 petaFLOPS的密集FP8和FP16。这使其比H100/200高出1.85倍,比MI300X/325X高出1.4倍。
当然,这可能并不总是这样。相当多的努力已经投入到训练稀疏模型中,特别是对于Nvidia和晶圆级竞争者Cerebras而言。至少对于推理来说,支持稀疏浮点数学最终可能对AMD和Nvidia有利。
MI300A属于其自己的类别。Nvidia的Grace Hopper和Grace Blackwell超级芯片是完全不同的东西——它们不共享内存,也不太依赖先进封装技术。与此同时,Intel的Falcon Shores XPUs原本计划像AMD的MI300A一样共同封装CPU和GPU,但最终被改为Habana-Gaudi加上Xe图形处理器。
人工智能被炒的这么热,还没有真正见到哪个公司因为人工智能服务而挣钱。自动驾驶在2017年时,预测几年后就可以商用,现在还没有真正的商业化。做人工智能,还不如卖GPU,比如这个商业模式Sell GPUs。
Reference
AMD Reveals MI325X
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现