阿里云丁宇:以领先的云原生技术,激活应用构建新范式
8 月 11 日,2022 阿里云飞天技术峰会在深圳举行,会上阿里云提出云原生激活应用构建三大范式,并发布最新的产品与解决方案。基于分布式云容器平台 ACK One,实现多地域分布式系统一致管理;发布 ACK FinOps 解决方案,让企业实现数字化成本治理,云原生成本优化。同时在峰会现场宣布,消息队列 RocketMQ5.0 全面商业化,以更优的成本、超大规模弹性、轻量易集成、全链路可观测的优势,助力企业构建稳定的消息系统。
阿里巴巴研究员、阿里云智能云原生应用平台总经理丁宇在主论坛发表演讲,以下根据演讲内容整理而成。
丁宇在峰会现场
今天,企业应用构建依然面临很大挑战,资源如何按需使用,实现降本增效?如何在复杂系统架构下充分保障业务稳定和连续性,如何做到应用的敏捷和业务的智能化?以及非常重要的一点,如何保障系统的可信和安全?
企业亟需充分挖掘云计算的技术红利,助力业务发展,创造更多的商业价值。而云原生可以激活应用构建范式,以解决企业在新时期遇到的挑战。
全面容器化。 容器带来运维的标准化,今天容器已经成为云计算和企业交互的新界面,并带来弹性和可伸缩能力的提升,助力企业应对降本增效的刚需。同时我们也看到一个趋势就是全负载的容器化。今天讲的容器化,不仅仅是微服务,包括 AI、大数据等新型应用也在全面容器化,这就让容器部署变得无处不在。
核心技术互联网化。 互联网化可以支撑业务的敏捷迭代,同时构建弹性架构,让应用可以从容应对流量的高峰,并实现高可用、高可靠,保障业务的连续性。
应用 Serverless 化。 Serverless 大幅度提升企业开发运维效率。并且由于全托管,带来了更加极致的弹性,针对所有场景进行覆盖,让应用上云更简单。
IDC 预测:到 2024 年,由于采用了微服务、容器、动态编排和 DevOps 等技术,新增的生产级云原生应用在新应用的占比将从 2020 年的 10% 增加到 60%。
针对三大应用构建新范式,阿里云提供了哪些云原生产品与方案呢?
首先我们来看容器服务。阿里云容器产品发布 7 年以来,已发展成为企业客户与阿里云自研飞天云操作系统交互的新界面。相比开源方案,阿里云容器服务实现了计算密集型应用性能提升 20%,容器网络延时降低 50%,异构资源利用率提升 100%,并实现全链路可观测。目前容器服务 ACK 已全面升级为 ACK Anywhere,在企业任何需要云的地方,提供统一的容器基础设施能力。
分布式云容器平台 ACK One:多地域分布式系统一致管理
据预测,到 2025 年,50% 大型企业将通过分布式云推动业务创新,为此阿里云推出了企业级多地域/多集群容器管理平台 ACK One,大幅简化了集群管理界面,提供一致的管理、交付、运维体验。无论是基于公共云、专有云、自有 IDC 还是边缘节点,用户都可以通过 ACK One 进行统一的容器集群管理、资源调度、数据容灾和应用交付。
泛生子是我国领先的癌症精准医疗公司,基于ACK容器技术支持对癌症基因检测数据处理,充分利用了云的弹性能力,日处理能力在过去三年提升了10倍, 单样本处理成本相比于云下节省成本 60%。
vivo 是国内知名的智能手机厂商,其 AI 计算平台通过 ACK One ,及时满足算力需求,大大缩短资源交付周期,从数月缩短到天级别。 对于临时的短期使用的算力需求,通过混合云使用公有云资源,可降低 90% 以上成本。
ACK 云原生 AI 套件:异构算力,加速提效
云原生 AI 的目标是使用云原生技术和生态,帮助用户系统化、便捷、高效地构建起符合自己需求的 AI 工程平台,开启 AI 能力生产的流水线。因此阿里云打造了 ACK 云原生 AI 套件,它可以提高在运行 AI 任务时的计算资源利用率,加速任务执行速度。特别适用于异构计算和深度学习两大场景,可以加速 AI 数据访问 35%,加速分布式训练 20%,GPU 资源利用率提升 100%。
任意门(社交产品 soul)基于阿里云 ACK 云原生 AI 套件,从 0 到 1 构建 AI 平台,统一异构资源的运维、弹性、调度,高效管理 AI 开发、训练、推理任务,模型迭代效率提升 2~5 倍,GPU 利用率提升 44%,成本节约 52%。
毫末智行是一家致力于自动驾驶的人工智能公司,其 AI 平台基于云原生 AI 套件 Fluid 和 EMR JindoFS 进行数据集缓存加速,有效解决存算分离架构性能瓶颈,显著提升云上训练和推理的效率,训练速度最高可提升约 300%。多机多卡训练效率提升 70%,整体 TCO 降低 20% 。
ACK FinOps 方案:数字化成本治理,云原生成本优化
随着企业用云程度加深,企业面临云成本管理困难的新问题,云成本优化能力成为企业用云管理的首要需求。阿里云结合业财一体化实践和 FinOps 理念,并应用人工智能技术提供云成本优化工具,推出 ACK FinOps 方案,帮助企业快速实现云上全链路企业财务经营管理,轻松做好事前预算编制、事中关键指标预警预测、事后多维度成本分析以及优化建议。
今年 5 月,信通院发布了《可信云•云成本优化工具能力》标准及首批评测结果。阿里云凭借在云上成本管理的产品能力 ,以满分的成绩通过了全部 33 个能力指标,成为国内首家通过信通院云成本优化标准的云服务商。
TCL 是国内智能制造行业的代表,通过云原生 IT 成本治理方案,轻松实现部门、团队的费用分摊,通过自动弹性伸缩、智能资源画像推荐、应用混部与超卖等优化策略,实现了技术、业务、财务团队的“战略同频”,全年集团节省了 30% IT 成本投入。
中华保险作为国内互联网金融行业的领导者,在云原生上云的过程中,在兼顾架构稳定性、资源成本效率、数据安全性的同时,通过云原生 IT 成本治理方案提供的闲置资源巡检、租户级费用分摊、弹性与混部等方式,将企业 IT 成本治理周期从季度缩短到天级别,资源闲置率从 30% 降低到 10% 以内。
可观测套件 ACOS:保障数字化业务高效运行
接下来我们看一下互联网中间件。云原生不仅重塑了企业 IT 架构,也改变了运维体系与流程。「可观测」理念应运而生,并成为度量企业 IT 治理水平的重要标准。小到问题定位、风险识别,大到成本管理、业务连续性治理甚至业务增长,都依赖着可观测技术与数据。
阿里云可观测套件 ACOS 围绕 Prometheus 服务、Grafana 服务和链路追踪服务,形成指标存储分析、链路存储分析、异构构数据源集成的可观测数据层,同时通过标准的 PromQL 和 SQL,提供数据大盘展示,告警和数据探索能力。
畅捷通是用友旗下小微企业财务及管理公司,基于阿里云可观测套件,故障定位时间降低 50%,减少 30% 运维工作量;南京爱福路使用可观测套件 ACOS,故障数降低30%,平均故障响应时间从 30 分钟下降到 15 分钟,用户满意度提升 15%。
消息队列 RocketMQ 5.0 正式商业化
今天,消息队列 RocketMQ 5.0 正式商业化,本次升级,相比上一代降价 50%。 RocketMQ 5.0 商业化版本提供新一代售卖实例,首先在超大规模弹性方面,可以实现 0~100 万 TPS 超大规模伸缩;其次在可观测性上,支持全链路调用链集成和自定义监控指标集成;最后在集成方面,全面支持原生 Java/C++/C#/Go SDK,更加稳定。
最后是应用 Serverless 化。Serverless 发展至今已经成为云计算的核心技术,主流场景都在通过 Serverless 解决问题,并且阿里云提供了完整的工具链,让企业通过 Serverless 架构可以更简单地在云上构建应用,充分享受 Serverless 化带来的红利。
Serverless 应用中心重磅发布
随着 Serverless 架构的普及与使用,Serverless 工具链体系的匮乏、更新/部署流程复杂、资源零散以及治理难度大等问题也随之露出。阿里云重磅发布 Serverless 应用中心:海量场景化模板,让 Serverless 应用全生命周期管理更简单。 通过 Serverless 应用中心,用户在部署应用之前无需进行额外的克隆、构建、打包和发布操作,即可快速部署和管理应用,帮助用户快速联动云上的上下游服务,轻松沉淀最佳实践。
未来,希望更多企业通过云原生产品技术,激活企业应用构建范式,全面释放生产力,实现数字化创新升级。