cloudpilot-ai

导航

Datadog发布云成本现状报告:83%的容器支出被闲置资源浪费

原文链接:https://www.datadoghq.com/state-of-cloud-costs/
编译:CloudPilot AI

尽管灵活多样的云服务为云成本优化提供了诸多机会,但企业在提升日益增长的云支出效率时依旧面临重大挑战。云环境的复杂性和动态性主要源于服务的广度以及企业不断采用新技术的趋势,例如支持人工智能的Arm架构处理器和GPU。这些复杂性使企业难以全面掌握导致云成本上升的各种因素。

在本报告中,Datadog 分析了来自数百家企业的 AWS 云成本数据,深入探讨了新兴技术与上一代技术的使用情况、云资源使用模式,以及参与 AWS 折扣计划对云成本的影响。研究结果表明,尽管企业在上述每个方面都存在优化成本的机会,但在这一复杂多变的环境中,识别并实现这些优化仍然具有一定的挑战性。

Fact 1:GPU实例支出现已占计算成本的14%

在过去一年中,使用 GPU 实例的企业其相关支出平均增加了40%——从占用 EC2 计算成本的10%上升到14%。GPU 的并行处理能力使其成为训练大语言模型(LLMs)和执行其他 AI 工作负载的关键工具,其速度比 CPU 快200%以上。

基于 GPU 的 EC2 实例类型通常比非 GPU 实例更昂贵。然而,最广泛使用的类型——G4dn(被74%的GPU用户采用)——也是成本最低的。这表明,许多客户正在尝试 AI 技术,将 G4dn 应用于他们在自适应AI、机器学习(ML)推理以及小规模训练方面的早期探索。我们预计,随着这些企业扩大 AI 应用并将其投入生产环境,GPU 相关支出将在其云计算预算中占据更大的比例。

Fact 2:Arm实例支出占计算成本的比例在过去一年翻了一番

数据显示,使用 Arm 架构实例的企业,其 EC2 计算成本中有18%花费在 Arm 实例上,这一比例是去年同期的两倍。基于 Arm 处理器的实例比类似的 EC2 实例能耗降低多达60%,同时通常能够以更低成本提供更好的性能。

最常见的 Arm 架构实例类型是T4g,约 65% 的企业选择使用这一实例。这些实例由 Graviton2 处理器驱动,其性价比相较基于 x86-64 架构的 T3 实例高出多达 40%。

尽管 Arm 架构实例目前在 EC2 计算支出中仅占少数,但过去一年这一比例持续稳步增长。这表明,企业正开始更新应用程序,利用更高效的处理器来减缓计算支出的增长趋势。

Fact 3:容器成本占EC2支出的三分之一

企业将约 35% 的 EC2 计算支出用于运行容器,比去年同期的 30% 有所增长。这其中包括用于自托管集群的 Kubernetes 控制节点或工作节点的 EC2 实例,以及运行在 ECS 和 EKS 集群中的实例。在我们分析的所有客户中,大约四分之一的企业将其超过 75% 的 EC2 支出用于运行容器。

我们预计,随着企业越来越多地受益于容器带来的效率提升——包括简化部署流程、更高效的依赖管理,以及基础设施利用率的优化,用于容器的云支出比例将持续增长。然而,企业也将面临新的挑战,例如如何在动态且共享的基础设施上准确归因成本,以及如何以更经济高效的方式规划容器基础设施。

Fact 4:超过80%的容器支出浪费在闲置资源上

研究表明,83%的容器支出与闲置资源相关。 其中约54%的浪费来自集群闲置,即由于集群基础设施的过度配置所产生的成本;另外29%的浪费则与工作负载闲置有关,这是由于资源请求超出实际工作负载需求而造成的。

报告认为,容器支出中的浪费无法完全避免。开发团队在预测新应用程序的资源需求时面临诸多困难,这使得资源分配的效率难以提升。此外,资源需求通常会因工作负载的特性(如复杂度)和利用率的变化而波动。

尽管企业可以通过自动扩展集群基础设施和单个工作负载来优化资源利用,但自动扩展本身复杂性较高。团队可以根据工作负载的流量模式调整扩展参数,但这些优化带来的效率提升通常微乎其微且难以捕捉。

Fact 5:上一代技术仍被广泛使用

虽然 AWS 当前的基础设施产品通常在性能上优于上一代版本且成本更低,但我们的数据显示,尽管企业正在努力实现现代化,在 EC2 实例类型和 EBS 卷类型的使用上,旧技术仍然在许多环境中占据重要地位。

研究发现,83% 的企业仍然使用上一代 EC2 实例类型,尽管这一比例已较一年前的 89% 已有所下降。这些企业平均将约 17% 的 EC2 预算花费在这些旧实例上。

在 EBS 方面,当前一代EBS卷(gp3)的成本比 gp2 卷低约 20%,但企业在使用旧版卷上的支出仍然较高。gp2 卷的成本占平均企业 EBS 支出的 58%,较一年前的 68% 有所下降。

我们预计,尽管 gp2 卷在短期内仍会被使用,但随着时间的推移,企业将逐渐减少对其的依赖。迁移的挑战——包括迁移大量数据的复杂性、所需的跨团队协作,以及如何预测工作负载在新技术下的表现——导致迁移进程缓慢。然而,新版 EC2 和 EBS 技术所带来的成本降低和性能提升——甚至未来的新技术——将继续成为迁移的持续驱动力。

Fact 6:跨可用区(AZ)流量占数据传输成本的一半

我们的研究发现,平均而言,企业在将数据从一个可用区(AZ)发送到另一个可用区的费用,几乎等同于所有其他类型的数据传输费用,包括VPN、网关、入口和出口流量。在某些场景下,跨AZ流量可能是不可避免的,例如,应用的高可用性架构要求实例部署在多个可用区。这也可能是随着团队、服务和应用程序规模的扩大,带来的不可避免的副作用。

无论成本来源如何,其影响都是显著的:98%的企业都受到跨可用区费用的影响。这可能表明,几乎所有企业都有机会通过优化云成本来提高效率,例如,在可用性要求允许的情况下,将相关资源集中部署在单一AZ内。

在某些情况下,云服务提供商已经取消了对某些类型数据传输的收费。虽然很难预见这些变化将如何演变,但如果提供商进一步放宽数据传输费用,未来的跨AZ流量可能会在云成本优化中不再是一个重要因素。

Fact 7:越来越少的企业使用基于承诺的折扣

云服务提供商对许多服务提供折扣,例如,AWS 为 Amazon EC2、Amazon RDS、Amazon SageMaker 等提供折扣计划。大多数企业选择参与这些计划,承诺未来产生一定的支出或服务使用量。然而,数据显示,参与这些计划的企业比例在下降——去年为72%,而今年为67%。

此外,企业对这些折扣计划的参与度相对较低——只有29%的企业购买的折扣足以覆盖其超过一半的云支出。这种低使用率表明,企业无法完全承诺特定的使用量或支出,可能是因为他们很难准确预测资源需求,导致无法自信地承诺长期使用。

另外,企业在做出折扣购买决策时,也可能面临责任不明确的问题,难以确定哪些团队负责这些决策,以及哪些资源受影响。我们认为,这需要进一步优化,大多数企业可以通过更全面地理解云支出的使用模式,充分利用折扣来降低成本。

Fact 8:使用 Savings Plans 的企业是使用预留实例企业的四倍以上

AWS 用户有两种方式来降低 EC2 成本:Savings Plans,即用户承诺一定金额的 EC2 支出;和预留实例(Reserved Instances),即用户承诺在特定可用区使用某种实例类型。

Savings Plans 更具灵活性,我们发现,大多数企业(59%)选择使用 Savings Plans,至少将其用于部分 EC2 支出。使用预留实例的企业则要少得多,只有15%。这可能表明,企业在预测 EC2 支出时更有信心,而对于需要部署哪些实例类型以及在哪里部署则相对不那么确定。

公司介绍

CloudPilot AI 是一家全球领先的 Karpenter 托管云服务提供商,致力于通过智能化、自动化的云资源调度和编排技术,帮助企业最大化云资源利用率。我们秉持“让客户在云中花费的每一分钱都物超所值”的使命,为客户提升10倍的资源效率,同时将云成本降低50%以上。

目前,开源K8s弹性伸缩器 Karpenter 已为全球超500家知名企业在生产环境中提供服务,包括阿迪达斯、Anthropic、Slack、Figma等。CloudPilot AI 已为数十家全球顶尖科技公司提供服务,累计为客户节省超过30万美金,平均节省67%。 选择CloudPilot AI,让每一笔支出都更智慧。

免费试用,2步5分钟,降低50%云成本:www.cloudpilot.ai

posted on 2024-12-18 11:02  CloudPilotAI  阅读(21)  评论(0编辑  收藏  举报