阿里云 ACK 新升级,打造智算时代的现代化应用平台
作者:易立
今天,能想到的或是想不到的领域,对容器和 Kubernetes 的需求都居高不减,使这项技术正在真正走向无处不在。
在 2023 云栖大会上,阿里云云原生产品线容器服务负责人易立关于容器服务 ACK 在本届亚运会上应用的介绍,让现场观众眼前一亮, “以杭州亚运会为例,作为云原生技术底座,为亚运一站通、亚运钉等众多核心应用提供了高弹性、高可用、异地多中心的架构支持,确保了赛事系统万无一失。”
阿里云容器服务 ACK 已经成长为企业的云原生应用操作系统,帮助越来越多的客户实现智能化、数字化创新,包括自动驾驶、智能科研、金融科技等众多新兴领域。其覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。
在过去一年,阿里云容器产品能力持续受到业界的广泛认可。2023 年 9 月,在权威咨询机构 Gartner 发布的容器管理魔力象限中,由于在公共云、专有云、混合云等环境完善的产品体系,阿里云成为全球领导者,亚洲唯一。 在 2022 年 4 季度,Forrester 公共云开发与基础设施平台 Q4/22 评测中,阿里云是中国云原生开发者的最佳选择。
智算时代已来,易立介绍了为助力企业构建现代化应用平台,阿里云容器服务在高效云原生算力、高性能智算应用、智能化运维管理、可信基础设施、分布式云架构 5 大核心方向带来的产品能力全新升级。
新一代云原生算力,提升企业计算效能
更大规模:弹性算力池新突破
阿里云提供了丰富的弹性算力,包括 Intel/Amd/倚天 Arm 等多 CPU 架构,GPU/RDMA 等多种异构加速器,以及按量、Spot、节省计划等多样化的售卖形态。使用 ACK,客户能够最大化利用阿里云整体弹性算力池能力,根据自己的需求灵活选择,增效降本。
ACK 集群支持托管节点池、虚拟节点两种不同的数据面形态:
- 托管节点池,支持任何 ECS 裸金属和虚拟机实例作为 K8s 工作节点,一个工作节点可以运行多个 Pod,全兼容 K8s 语义,兼具灵活性与易用性。
- 虚拟节点,每个 Pod 运行在独立的弹性容器实例 ECI 之中。每个 ECI 实例是一个独立安全沙箱,具备高弹性、强隔离,免运维等特点。阿里云弹性计算基于 CIPU 可以统一生产 ECS 裸金属实例、虚拟机实例和弹性容器实例。这意味这 ECI 支持弹性计算丰富的算力类型,具备充足的库存保障。
今年 ACK 集群通过与弹性计算调度相互感知,可以更好调度 ECI 实例,支持将 K8s 对集群资源调度能力扩展到整个弹性算力池,确保了 ECS 节点池与虚拟节点的调度统一和能力一致,用户无需修改现有 K8s 应用定义即可最大化使用云资源。
越来越多的客户基于 ACK 集群,构建大规模微服务架构应用和大规模数据计算任务。同时为了满足对集群规模增长的诉求,ACK 单集群最大支撑的节点从 10000 提升至 15000,ECI 实例从 20000 提升至 50000 实例。我们的控制面组件会根据数据面规模按需伸缩,保障稳定性。
更优性价比:倚天架构专属优化
越来越多的 ACK 客户选择倚天芯片作为新算力选择。客户选择倚天架构实例主要有如下三个原因:
- 高性价比: 相比 G7 实例族,Web应用提升 50%,视频编解码提升 80%,Spark 任务提升 28%。
- 高吞吐: 采用 Arm V9 架构,提供独立物理核心,提供更确定性的性能;相比 G7 实例族,Web 应用吞吐提升 22%;Spark TPC-DS Benchmark 速度提升 15%。
- 专属优化: 容器镜像服务 ACR 联合基础软件团队、龙蜥社区在制品中心,提供了面向倚天芯片专属优化的基础软件及应用软件镜像。通过基于 AI 和专家知识库的 KeenTune 为倚天架构提供专项参数调优。在主流场景中,优化后相比优化前性能提升 30%。
为了支持容器应用向倚天架构平滑切换,ACR 提供了多架构镜像构建能力,支持一份源码构建出包含 x86、Arm 架构的应用镜像,同时 ACK 集群可以同时包含 Arm/x86 节点池或虚拟节点,让客户 K8s 应用在不同 CPU 架构下按需调度,逐步切换。
更高弹性:全新发布节点池即时弹性能力
最大化利用云的弹性能力是客户对容器产品的重要诉求,易立也带来了 ACK 的一项全新发布:“在阿里云上,容器服务每天有数百万核的算力资源按需扩缩容,帮助客户优化计算成本。今天,我们正式发布 ACK 节点池即时弹性能力”。
ACK 节点池即时弹性 Scaler 拥有以下特点:
- 更快的弹性速度:在 100 节点池的规模上,保持平均 45s 的端到端扩容速度,相比社区 Cluster Autoscaler 提升 60%。
- 支持用户定义灵活的规格匹配策略:在社区的 Cluster Autoscaler 中,每个节点池中节点 CPU/Memory 规格是固定的,如需满足不同需求需要创建多个节点池,会带来配置管理复杂性、资源碎片引入的可能,并增加由于库存不足导致弹性稳定性降低的风险。即时弹性 Scaler 支持用户定义灵活的规格匹配策略,不同机型节点规格匹配条件下,系统会根据待调度的 Pending Pod 集合的资源请求和调度约束,及对 ECS 的库存感知,生成优化的装箱结果。这样,只需一个节点池就可以完成对多规格、多可用区的节点弹性。在降低节点池配置复杂度的同时,减少了资源碎片,提升了弹性的成功率。
- 即时弹性完全兼容现有节点池能力和使用习惯,可以配合托管节点池实现节点的自动化运维。
更简运维:ContainerOS 与全托管节点池结合
对于 K8s 集群,节点运维是保障系统稳定性与安全的重要日常工作,但是手工操作非常复杂繁琐。
ACK 托管节点池支持节点的全生命周期自动运维,包括 CVE 高危漏洞自动修复、节点故障自愈、OS/ 节点组件自动升级,其中节点自愈成功率 98%;集群节点运维时间减少 90%。
ContainerOS 是龙蜥社区发布的面向容器优化的操作系统,采用不可变基础设施理念构建,具备精简、安全、可编程等特点。千节点弹性时间 P90 55s,相比 CentOS 等节点弹性时间降低 50%。
ContainerOS 与全托管节点池可以完美结合,进一步优化了节点池的弹性和可运维性,让企业聚焦在自己的自身业务,而非 K8s 基础设施维护。
更丰富场景:Serverless 容器为 AI 场景增效降本
对 Serverless Container 的支持是 K8s 演进的重要方向,基于 ECI 的 ACK Serverless 在客户场景中得到了广泛的应用。ACK、ECI 不但帮助微博热搜,钉钉会议等在线应用的弹性伸缩,也在助力众多 AI 和大数据客户降本增效。
- 深势科技基于基于 ACK 与 ECI 实现多地域部署AI科研平台,免运维,按需创建实验环境 ,支持大规模 AI 镜像秒级拉取,资源利用率提升 30%。
- 米哈游基于 ACK 与 ECI,统一全球各区服大数据平台架构,单日创建 200 万 以上 ECI实例执行 Spark 计算任务。通过高效利用 ECI Spot 实例,整体资源成本下降 50%。
今年 ECI 弹性容器实例有四个重要发布:
- 普惠降本: 新增「经济型」规格,相比当前通用型价格下降 40%,面向成本敏感的Web应用、计算任务、开发测试等工作负载。此外现有通用型实例价格也将在近期下调,最高下降 15 %。
- 极致性能: 计划新增「性能增强型」规格,面对计算密集型业务场景,如科研、高性能计算、游戏,相比现有通用型实例,提供更高性能的算力、更具确定性的性能。
- 弹性加速: ECI 通过对用户负载特征自学习和预测,实现底层资源的预调度,扩容速度提升至 7000 Pod/min,非常适于大规模数据任务处理场景。此外业界首家支持 GPU 驱动版本选择,为 AI 应用提供更多灵活性的同时,冷启动提速 60%。
- 灵活提效: ECI 今年发布了对倚天 Arm、AMD 架构的支持,ACK 也在近期上线了 Windows 容器支持,支持更加丰富的企业应用场景。并且发布对细粒度内存规格支持,帮助用户精细化资源适配,消除空闲资源开销。
云原生智算基础设施,构筑高效现代应用平台
全面支持灵骏集群,为大模型训练提效
过去一年,AIGC/ 大语言模型无疑是 AI 领域最重要的进展。随着大模型参数规模、训练数据和上下文长度的增长,训练大模型所消耗的计算量呈现指数级增长。
ACK 全面支持阿里云灵骏智算集群,为大规模分布式 AI 应用提供高性能、高效率的 Kubernetes 集群。ACK 提供了对灵骏高性能算力的全面支持,以及批量AI任务调度,数据集加速,GPU 可观测与自愈等能力。
通过软硬件协同设计与云原生架构优化,ACK 助力 PAI 灵骏智算方案高效利用强大的算力,为 AIGC、自动驾驶、金融、科研等众多智算业务场景提效。
ACK 云原生 AI 套件增强,构筑企业专属 AI 工程化平台
ACK 去年推出云原生 AI 套件,帮助用户基于 Kubernetes 充分利用阿里云上弹性算力,支持弹性训练与推理等场景。在此之上既服务了阿里云 PAI、灵骏智算、通义千问等 AI 平台与服务,也提供对开源 AI 框架和模型的容器化支持。
今年,针对大模型场景,AI套件新增了对开源大模型框架 DeepSpeed,Megatron-LM,TGI 的容器化支持与优化。通过云原生 AI 套件的调度优化与数据访问加速,AI训练速度提升 20%;大模型推理冷启动速度提升 80%,数据访问效率提升 30%。
ACK AI套件已被广泛应用于众多海内外企业,帮助客户构建自己专属的 AI 平台,显著提升 GPU 资源效率和 AI 工程效率。
- 国产 AI 绘画工具「海艺 AI」:基于 Fluid 数据集加速和 AIACC 模型优化方案,推理性能提升 2 倍。
- 任意门 Soul: 基于 ACK 构建近千卡规模 AI PaaS 平台,开发迭代效率提升 2-5 倍。
ACK 集群调度器, 面向 AI /大数据负载优化扩展
ACK集群调度器基于 Koordinator 项目。它是基于阿里巴巴大规模混部实践孵化出的开源 Kubernetes 调度器实现,可以统一、高效地支持微服务、大数据、AI 应用等多样化的工作负载。其中我们针对 AI、大数据负载进行了如下优化和扩展:
- 在全面兼容 Kubernetes 现有调度能力基础上提供批量任务的调度元语,如 Gang Scheduling,弹性配额、优先级调度等,可以与 Kubeflow,KubeDL 等社区项目无缝集成。
- 支持拓扑感知性能优化,根据 PCIe、NVSwitch,以及 RDMA 网卡等互联链路的拓扑信息,自动选择能够提供最大通信带宽的 GPU 卡组合,有效提升模型训练效率。
- 支持对 GPU 的细粒度资源共享调度,有效提升模型推理场景 GPU 资源利用率。
近期我们与小红书在社区合作,将发布 Hadoop Yarn 任务与 Kubernetes 负载混部的能力,进一步提升 Kubernetes 集群的资源效率。相关工作帮助小红书 ACK 集群资源效率提升 10%。
我们也在推进 Koordinator 捐赠到 CNCF 基金会,保持项目长期健康的发展,也欢迎大家在社区共建。
智能自治体系,降低容器运维管理成本
ACK AIOps 智能产品助手,加速 K8s 问题定位与解决
Kubernetes 自身技术复杂性是阻碍企业客户采用的一个重要因素。一旦 K8s 集群发生故障,对应用、集群、OS、云资源的问题排查,即使对经验丰富的工程师也充满挑战。
ACK 全新升级容器 AIOps 套件,通过大模型结合专家系统的方式,让管理员可以通过智能产品助手,使用自然语言与系统进行交互,加速 Kubernetes 问题定位与解决。
当问题发生时,AIOps 套件会采集上下文相关的 Kubernetes 对象与云资源的定义,状态与拓扑信息。比如 Deployment,Pod 和关联的节点等。以及相关的可观测信息,如日志,监控,告警等。然后会基于大模型进行数据分析与归集,给出当前问题的可能原因与修复方案。ACK 背后的大模型方案面对云原生开发和运维知识库进行了调优,提升了问题分析的准确度。
用户可以进一步利用智能诊断中的专家经验系统,进行根因定位。现有 AIOps 套件包含 200+ 诊断项,覆盖 Pod,节点,网络等问题场景,可以对网络抖动,内核死锁、资源争抢等问题进行深入排查。
除了用户驱动的问题诊断,AIOps 套件也在加强对自动化巡检和异常事件自动化实时处理,为集群稳定性、安全提供更加全面的防护,防患于未然。
ACK FinOps 套件全面升级,精细场景化分析与分摊策略
ACK 去年发布了 FinOps 成本管理套件,为企业管理员对 K8s 集群现了成本的“可见,可控,可优化”。在过去的一年中,FinOps 套件支持了不同行业的上百家客户,其中:
- 乾象投资利用 FinOps 套件,优化应用配置,集群资源利用率提升 20% 成本节省超过 10 万元/月。
- 极氪汽车通过 FinOps 套件实现混合云弹性降本,一年节省了数百万 IT 成本。
今年,FinOps 套件全面升级,增加了更多场景化的分析与分摊策略,例如:在 AI 场景,可以基于 GPU 卡、显存等维度进行成本可视化。此外,FinOps 套件还发布了一键资源浪费检查功能,可以快速发现集群中空置的云盘、SLB 等未被使用的资源,让集群的整体资源利用率进一步提升。
端到端容器安全,为构建可信 AI 应用护航
可信化应用交付增强,ACK 与 ACR 提供 DevSecOps 软件供应链
软件供应链安全是企业落地云原生技术的最大关切,Gartner 预计到 2025 年,全球 45% 的组织都会遭受过软件供应链攻击。
阿里云 ACK 和 ACR 服务提供 DevSecOps 最佳实践,实现了从镜像构建、分发到运行的自动化风险识别、阻断与预防能力。帮助企业构建安全可信的软件供应链。
DevSecOps 的实践依赖研发、运维、安全团队的深入协同,今年,我们推出了集群容器安全概览,帮助企业安全管理员更好感知集群配置、应用镜像、容器运行时的安全风险,让供应链流程更加透明高效。
通过使用我们的 DevSecOps 供应链安全能力:著名的汽车制造商路特斯每月实现千次安全配置巡检,预防高危风险配置上线;招联金融基于供应链策略治理能力,在每日 CI/CD 流程中实现千次风险镜的拦截阻断,保障金融业务安全。
两全其美:Sidecarless 与 Sidecar 模式融合的服务网格新形态
服务网格已经成为云原生应用的网络基础设施。阿里云服务网格 ASM 产品进行了全新的升级,成为业界首个发布托管式 Istio Ambient Mesh 的产品,提供对 Sidecarless 模式与 Sidecar 模式的融合支持。
经典服务网格架构采用 Sidecar 模式,需要为每个 Pod 注入 Envoy Proxy Sidecar,实现流量拦截与转发。具备极高的灵活性,然而引入了额外的资源开源,增加了运维复杂性和与建联时延。在 Sidecarless 模式下,L4 代理的能力被移到节点上 CNI 组件中,可选 L7 代理独立于应用程序运行。应用程序无需重新部署即可享受服务网格带来的安全加密,流量控制和可观察性等功能。
在典型客户场景中, 采用 Sidecarless 模型服务网格,可以减少资源开销 60%,简化运维成本 50%,降低时延 40%。
托管式 Istio Ambient Mesh 有效地降低服务网格技术复杂度,推动零信任网络技术落地。
新推隐私增强型算力,护航可信 AI 应用构建
为解决企业对数据隐私日益关切,阿里云、达摩院操作系统实验室与Intel和龙蜥社区一起,推出基于可信执行环境(TEE)的机密计算容器(Confidential Containers,简称CoCo)在云上的参考架构,结合可信软件供应链、可信数据存储,实现端到端安全可信容器运行环境,帮助企业抵御来自外部应用、云平台,甚至企业内部的安全攻击。
ACK 基于阿里云八代 Intel 实例所提供的 Trust Domain Extension TDX 技术,全新推出对机密容器以及机密虚拟机节点池支持。使用 TDX 技术,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,为金融、医疗、大模型等数据应用,提供隐私增强型算力。
在AI时代,模型和数据成为企业核心业务资产。基于机密计算容器,阿里云基础软件、容器、以及英特尔团队提供了可信AI应用一个演示方案。在这个示例架构中。应用、AI 模型和微调数据集都被加密存储在云端服务中,在运行时由机密容器在 TEE 中对其进行解密后执行。
- 模型推理与微调过程安全可信,保障数据的机密性与完整性。
- 高性价比,基于 AMX 指令集优化,32 核 CPU 可以实现秒级 Stable Diffusion 出图。
- 低损耗,TDX 带来的性能给损耗可以控制在 3% 以内。
更简单的跨云协同,让业务管理更高效
ACK One Fleet 为不同地域的多个 K8s 集群提供了统一的控制平面,我们可以对公共云集群、边缘云集群和本地数据中心集群,实现统一的集群管理,资源调度、应用交付以及备份恢复能力。
- 智联招聘使用 ACK One 实现混合云负载感知弹性,使用 ECI 5 分钟实现业务数万核扩容。
- 极氪汽车使用 ACK One 统一管理数十个混合云 K8s 集群,提升安全水位和业务连续性,减少 25% 的资源用量,运维效率提高 80%。
在模拟仿真、科学计算等大规模数据计算工作流场景中,一个批次的计算可能需要数万,甚至数十万核算力,超出单地域的弹性供给能力,需要依赖跨地域的计算供给。在 IoT 以及医疗等场景中,海量数据分散在不同地域,需要具备就近计算能力。为此,ACK 推出全托管 Argo 工作流集群,具备事件驱动,大规模、免运维、低成本、跨地域等特点。
- Argo 工作流集群充分利用多 AZ、多地域的弹性算力,自动化利用 ECI Spot,有效降低资源成本。相比自建 Argo 工作流系统,可实现 30% 的资源成本节省。
- 集群内建分布式数据缓存,提供更大的聚合读取带宽,数据吞吐相比直接访问提高 15 倍。
- 集群提供优化 Argo 引擎,并行计算规模提升 10 倍。
泛生子使用全托管 Argo 工作流集群在 12 小时内完成处理数千例肿瘤基因样本的处理,速度提升 50%,成本下降 30%。
阿里云容器服务 ACK,智算时代云原生基础平台
正如一个文明社会的科技水平取决于其对能源的利用能力,企业的智能化水平取决于其对算力的利用能力。云计算为智算时代带来无限可能,阿里云容器服务以为企业构筑现代化应用平台,最大化利用阿里云强大弹性算力为使命:
- 通过对多样化算力的场景化高效利用,提升计算效能
- 通过弹性与调度,提升资源利用率;
- 通过智能自治,降低运维成本
- 通过最佳实践与技术创新,提供端到端安全、可信运行环境