服务600+客户的3D生成AIGC公司如何实现GPU成本降低70%?
原文链接:https://aws.amazon.com/cn/solutions/case-studies/omi-eks-case-study/
编译:CloudPilot AI
总部位于巴黎的视觉生成初创公司 Omi 提供基于人工智能的 3D 图像渲染解决方案,帮助品牌生成高质量的产品视觉内容。Omi 始终将性能效率和成本优化放在首位。早在生成式 AI 兴起之前,该公司便利用 Amazon Elastic Kubernetes Service (Amazon EKS) 开发了其 3D 渲染解决方案。
为了进一步优化性能、速度和成本,Omi 借助 Karpenter 来自动匹配适合的计算资源,以处理基于 Kubernetes 的 GPU 工作负载。通过这项改进,Omi 不仅将基础设施成本降低了 70%,还将照片渲染时间从 5 分钟缩短至 1.5 分钟,提升了可扩展性,同时优化了员工的工作效率。
利用 Amazon EKS 优化 Omi 的 AI 图像建模
Omi 成立于 2020 年,旨在满足一项核心业务需求:以更少的时间和更低的成本制作高质量的视觉内容。 Omi 利用 AI 提供 3D 图像和视频建模服务,打破了传统的生产限制,大幅降低了制作成本,并通过 3D 技术与生成式 AI 实现了高效便捷的定制内容生产,覆盖了所有营销渠道。
目前,Omi 的业务遍布全球 17 个国家,服务超过 600 位客户和 1,000 个品牌,每日活跃用户超过 5,000 人,用户主要为电子商务、社交媒体和广告渠道制作内容。通过 Omi 的解决方案,客户在营销视觉内容的制作上显著减少了时间和成本。
从一开始,Omi 就致力于打造一款快速高效的解决方案,用于生成社交媒体照片、3D 动态图像以及视频,并适配电商网站和其他渠道的使用需求。
最初,Omi 在本地完成内容创建,并通过远程服务器实现照片级逼真的渲染。然而,随着对快速、低成本服务需求的增长,公司不得不将生成式 AI 功能集成到其解决方案中。这一集成对计算和 GPU 资源提出了巨大的要求,同时需要 Omi 采用新的方法来管理可扩展性,并在控制成本的同时保持高可用性。
Omi 的联合创始人 Paul Borensztein 表示:“对我们来说,构建能够提供卓越性能的基础设施非常重要,但我们也必须确保成本不会过高。”
最初,Omi 的基础设施团队有 60%–70% 的时间被用于优化 GPU 的扩展速度和成本管理。公司面临诸多 IT 运维挑战,例如由于 Docker 镜像过大导致的容器启动时间缓慢,以及涉及多种自动扩展组和实例类型的扩展复杂性。
传统的集群自动扩展器(Cluster AutoScaler)在管理生成式 AI 工作负载的可用区和实例类型时表现乏力,导致无法及时满足计算需求,进而让客户等待时间变长。
为了解决这些问题,Omi 采用了 Karpenter,这是一款开源的 Kubernetes 节点自动扩缩容工具,通过弹性伸缩 Kubernetes 集群,平衡应用程序的可用性、性能和成本。Omi 的高级后端开发工程师兼 SRE 工程师 Elliot Maincourt 表示:“使用 Karpenter 后,我们显著缩短了实例启动时间,这帮助我们的应用程序将照片的平均渲染时间从 5 分钟减少到 1.5 分钟,这无疑是一个巨大的提升。”
引入 Karpenter,降低 70% 成本并缩短渲染时间
在过去管理 Kubernetes 集群时,Omi 团队曾遇到不少挑战。为此,他们决定采用 Amazon EKS,这是一项托管服务,可用于启动、运行和扩展 Kubernetes 集群。为了进一步优化基础设施并解决运维难题,Omi 引入了 Karpenter,这款工具能够快速、自动适应应用负载和资源需求的变化,并智能选择跨可用区的低成本实例。
CloudPilot AI (www.cloudpilot.ai)在 Karpenter 的基础上对节点选择功能进行智能化升级。在选取实例的过程中,除了价格因素外,还将网络带宽、磁盘 I/O、芯片类型等因素纳入考虑范围内,通过智能算法选出兼顾成本和性能的实例类型,以减少资源浪费,增强应用稳定性。
另一个降低成本的手段是充分利用 Spot 实例,因为这一实例类型的价格为 On-demand 实例的 1-2折。此外,CloudPilot AI 采用自研的 AI 算法,能提前精准预测 Spot 实例中断时刻。将默认2分钟的中断通知延长至2小时,同时在检测到 Spot 实例即将中断之后,帮助用户安全、高效、自动地完成 Spot Fallback,为运维团队减负,保障应用平稳运行。
Borensztein 表示:“Amazon EKS 和 Karpenter 在处理我们工作负载的扩展方面表现非常出色,有时 GPU 实例能在几分钟内从 1 个扩展到 250 多个,同时仍然有效控制了成本。”
Omi 的解决方案可以快速扩展至 1,000 个 GPU 实例,并且包括 CPU 实例在内,能够在 Amazon EKS 上同时运行超过 1,500 台机器。(参见下方图 1 和图 2)
图1 总体集群负载
图2 Ratio/On-Demand Ratio
通过结合使用 Karpenter 的节点生命周期管理和成本优化实例,Omi 成功将整体成本降低了 70%。 Omi 利用 Karpenter 管理其 Amazon EKS 节点组,** 在 24 小时内扩展至 3,500 多个 Pod。** 这种快速扩展能力帮助 Omi 满足了客户的需求。Borensztein 表示:“在 AWS 上使用 Karpenter,我们在不到两个月的时间内就取得了巨大改进,包括在部署和调优方面。”
此外,为了更高效地服务客户,Omi 采用了 Bottlerocket,这是一款由 AWS 专门为运行容器设计的基于 Linux 的开源操作系统。Omi 利用 Bottlerocket 的不可变操作系统(Immutable OS)从外部数据存储中预取容器镜像,然后再在只读操作系统上启动 Kubernetes Pod。
通过借助 AWS 提升解决方案性能,Omi 希望进一步加速客户体验。Omi 的集群在峰值状态下可以支持超过 1,000 个节点的运行。 这些改进不仅帮助 Omi 构建了一个强大的解决方案,还减少了团队的维护时间。Maincourt 表示:“现在我们可以专注于业务扩展,而不是花时间管理基础设施。我对我们在 Amazon EKS 上的集群非常信任,它们从未出过问题,尽管我们对它们的要求非常高。”
Omi 的客户也从这些改进中受益匪浅。随着基于单个产品的灵活定价模式的引入,客户现在可以为单个产品执行大规模渲染任务,数量可达数千甚至数万次。 Borensztein 表示:“通过这些年来我们在优化方面的努力,包括在这个重大项目中使用 AWS,我们为客户提供了极大的灵活性,他们几乎可以无限制地扩展渲染需求。”
加速拓展新市场
在不到两个月的时间内,Omi 通过使用 Karpenter 和 Amazon EKS 实现了显著的改进,这些解决方案让公司能够将精力集中在业务扩展上,而非基础设施管理。如今,Omi 在提升渲染能力和重新评估基础设施需求上花费的时间显著减少。
Omi 的业务增长在英国和整个欧洲加速推进。公司继续利用 AWS 优化其解决方案,并计划将服务扩展到包括美国在内的新市场。在内容创作蓬勃发展的市场中,Omi 的解决方案汇聚了生成式 AI 和 3D 两大趋势的优势,具有强大的市场竞争力。
Maincourt 表示:“使用 Karpenter 和 Amazon EKS 的最大好处在于,我们显著减少了客户的渲染时间。同时,我们还将成本降低了 70%,这也是一个重要的商业目标。”
posted on 2024-12-23 11:48 CloudPilotAI 阅读(11) 评论(0) 编辑 收藏 举报