我的视频blog地址 http://www.lofter.com/blog/cloudrivers

Amazon Graviton 3 Uses Chiplets & Advanced Packaging To Commoditize High Performance CPUs | The First PCIe 5.0 And DDR5 Server CPU

SemiAnalysis can confirm that Amazon is using Arm’s Neoverse V1 core.

凭借其 AWS 平台,亚马逊正在不断打破所有硬件规范,这一切都始于 他们于2015 年收购了 Annapurna Labs。日前,亚马逊宣布推出了其新一代的服务器芯片Graviton3 和定制 SSD 控制器。

其第一个令人印象深刻的内部自研产品是几年前推出的 AWS Nitro。Nitro 从自定义管理程序、安全芯片和强大的 Nitro 网卡扩展而来。亚马逊领先于商业芯片供应商的所有 SmartNIC 和 DPU 工作,并设计/实施了他们自己的定制硬件堆栈。这些 NIC 通过允许分离管理程序和应用程序层,提供了巨大的安全性和操作效率优势。

亚马逊不必在每个物理 CPU 上专门分配 CPU 内核来运行 AWS 管理堆栈,而是可以将其卸载到他们的自定义网卡上。这释放了更多的内核,可以直接租给每台物理服务器的消费者。亚马逊能够将此作为优于其他云服务提供商的运营优势,并使利润远离英特尔等公司。Google 才刚刚开始在其云服务堆栈中标准化这种行为。谷歌与英特尔合作开发名为 Mount Evans 的 NIC,现在才启用类似于亚马逊弹性块存储的行为。

横向扩展存储的操作优势非常大。因为这就意味着不必在每个服务器中构建存储,可以在单独的存储专用服务器中实现存储。然后可以在运行时将该存储虚拟地分配给各种实例并将其供应给各种实例。客户在功能上不知道他们的存储在单独的服务器中,AWS 可以更有效地利用所有存储。

AWS 还可以为各种实例类型的存储大小提供更大的灵活性。每个物理服务器不会过度配置存储,并且可以更轻松地在大型专用池中进行管理。这里的配置选择更加详细和多样,但这是另外的故事。

让我们看一下最近的公告,其中亚马逊宣布了自定义 SSD 控制器和 Graviton3 CPU。先说一下定制的SSD控制器。通过转向自定义 SSD 控制器,亚马逊在性能变化和成本方面获得了巨大优势。成本显而易见;他们现在购买原始 NAND 并将其与他们的控制器打包在一起。AWS 保持对自己供应链的控制,不会屈服于高度可变的控制器生态系统。SSD OEM 利润现在是内部的。AWS 还可以标准化其数据中心的控制器和性能特征。

SSD 的控制器将数据映射到 NAND 芯片上的物理地址。这种抽象被称为闪存转换层 (FTL)。SSD 控制器需要管理 SSD 的垃圾收集、修整和磨损均衡,以保持最佳性能和最长使用寿命。其中一些任务会影响性能。亚马逊通过将这种管理抽象为他们可以控制和更新的软件来将其掌握在自己手中。控制水平的提高使亚马逊能够减少性能变化。这些管理功能将不再干扰客户的高性能存储需求。它们可以在后台无缝运行,而不会干扰客户的工作负载。

Graviton3当然是发布会上的明星。

亚马逊作为服务器 CPU 方面众多技术中的第一个跃升。他们使用具有 7 个不同芯片的小芯片设计。突出的是它们使用高级封装进行封装。连接每个芯片的 ubumps 的尺寸小于 55um,而 Intel 和 AMD 的每个 CPU 的尺寸仍大于 100um。英特尔和 AMD 只能赶上他们的下一代 CPU。这实现了一种设计,其中 IO 与 CPU 分离,而不会增加功率预算。AMD的罗马和米兰服务器 CPU 上 的IO die功耗高达 100W。这 100W 消耗了内核的功率预算,无法用于计算。Graviton 实现了比 AMD Milan 和 PCIe 5.0 连接高 50% 的内存带宽,同时将整个 CPU 功耗保持在相同的 ~100W 范围内。

64 个内核保留在前沿工艺节点上的单个单片芯片上,而 PCIe 5.0 和 DDR5 的tiles是单独制造的。这种系统设计是亚马逊可以比英特尔或 AMD 早约 6 个月部署 PCIe 5.0 和 DDR5 的部分原因。

亚马逊通过利用 ARM 的核心和 Synopsys/Cadence的 IP 来降低 IP 方面的成本。虽然亚马逊没有明确说明核心类型,但 SemiAnalysis 可以确认亚马逊正在使用 Arm 的 Neoverse V1 核心。

这个内核的选择相当有趣。因为大多数其他超大规模者都在等待 Neoverse N2,即 Neoverse N1 的后续。Neoverse N1 是出现在 Graviton2 和 Ampere Altra 中的核心。V1 之前只在欧洲、韩国和印度国内的高性能计算方面取得过胜利,所以亚马逊在这里的核心选择非常有趣。

与N1和N2相比,V1要宽得多。它提供了两倍的 FP 执行单元,但这是以更大的面积为代价的。内核的变化让SPECint 2017 的性能提高了 25%,SPECfp 2017 的性能提高了 60%。尽管与 Graviton2 保持基本相同的功率和时钟,但性能和 IO 变化的巨大增长仍然存在。晶体管数量仅从 300亿增加到500亿。

亚马逊正在采取整体系统级方法,因此他们专注于计算密度。与像 AMD 和 Intel 这样耗电数百瓦的大型封装不同,亚马逊正在转向相反的方向。他们将 3 个 CPU 塞入一个风冷服务器单元。英特尔和 AMD 的下一代 CPU 的功率接近 350W-400W,亚马逊的目标是这个数字的 1/3 到 1/4。亚马逊正在最大限度地提高机架级别的性能并最大限度地降低成本。这是通过几种方式实现的。

随着我们进入 400G 和 800G 时代,网络成本在服务器成本中所占的百分比不断增加。每个 CPU 运行单独的网卡成本过高。商业芯片通常以 1 个 CPU 运行,偶尔也会以每个 NIC 运行 2 个 CPU。Graviton3 的比率翻转为每个网卡 3 个 CPU 从属。

亚马逊还做出明智的决定,将这些处理器封装为 BGA。AMD 和 Intel 等商业芯片供应商使用sockets。这一决定增加了复杂性和成本,这是另一个故障点,并且它们降低了 CPU 与主板连接的密度,这需要更多的主板空间。销售服务器 CPU 几乎需要sockets,但亚马逊可以避免这种情况,因为它们是垂直集成的。BGA 是亚马逊每个服务器单元可以使用 3 个 CPU 的关键原因。

这些 CPU 已经在实际中广泛部署。亚马逊已经使用它们有一段时间了,他们的一些大客户,如 Epic Games、F1、Twitter 和 Honeycomb,也已经将它们部署到生产环境中。

Graviton3 的吸引力是巨大的,成本/美元的优势不仅限于垂直整合。支持 Graviton3 的系统级选择使其成为通用 CPU 计算实例的赢家。

虽然 x86 CPU 供应商将保持每个 CPU 领先的峰值性能,但英特尔和 AMD 忽略了更重要的战斗。这场战斗是针对通用 CPU 的服务器和机架级别的每单位计算的总拥有成本 (TCO)。

CPU 市场的商品化已经到来,即使英特尔和 AMD 的单独内核设计明显更好,也不会改变等式。英特尔和 AMD 过于关注某些方面,这使他们错过了系统级设计中的关键因素,例如峰值功率过高、密度过低以及时钟速度过快。

Graviton3 应该让 Intel 和 AMD 高管心生敬畏。事实上,所有商业芯片供应商都应该感到害怕,因为微软、Facebook、谷歌和主要的中国玩家都希望在网络、CPU、SSD、人工智能推理和人工智能培训之间复制这种垂直整合。这一篮子超大规模公司的增长速度比市场上的其他公司快得多,而且它们正在吞噬像真正的野兽一样花费的计算资金。技术垄断正在走向垂直,而且似乎没有采取太多措施来阻止这场长期的海啸。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

posted @ 2021-12-04 09:08  Michael云擎  阅读(81)  评论(0编辑  收藏  举报
我的视频blog地址 http://www.lofter.com/blog/cloudrivers