首个云上 AI 原生全栈可观测平台来了!

9月21日,2024云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。

“阿里云可观测产品家族实现全新升级,最常用的日志服务 SLS 相较于自建体系,运维监控综合成本可降低 30% 。”

AI 模型的深入发展,导致了数据处理方式与技术架构的深刻变化,相关应用产生的日志、链路等可观测数据规模呈指数级增长,数据结构复杂度也与日俱增,而 AI 部署的异构环境、资源及平台也越发多元,都给可观测性的准确、实时、高效与智能化发展带来了巨大挑战。

阿里云云原生应用平台负责人丁宇表示,“以阿里云可观测产品家族为代表的云原生可观测工具,正引领着 AI-native 可观测加速迈向智能化。企业用户可以像‘搭积木’一样轻松、灵活地构建可观测体系,更高效地管理与观测 IT 资源与服务,为 AI 创新夯实技术底座。”

今天,阿里云宣布日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 等可观测产品家族重磅更新,面向模型训练、推理及应用提供全链路的可观测服务。

在模型训练场景中,云监控 CMS 与阿里云 AI 算力产品及平台深度集成,全面采集计算、存储、网络调度等 AI 基础设施的可观测数据,有效覆盖数据准备、模型开发、训练和部署等环节,确保模型训练全流程可感知、可观测,为企业在 AI 基础设施的容量管理和可用性保障保驾护航。

在模型推理场景中,可观测性更多聚焦于推理性能提升、模型输入输出的质量优化及资源消耗的有效管理。应用实时监控服务 ARMS 推出符合 OpenTelemetry 标准的自研 Python Agent,全面支持通义千问/ LLamaIndex / LangChain 等国内外主流框架和模型,采集丰富的指标、链路及持续剖析数据,借助开箱即用的数据可视化大盘与性能诊断功能,确保用户实时掌握模型运行状态及潜在瓶颈,为大模型应用的稳定运行与高效运维提供坚实的基础。

与此同时,日志服务 SLS 与大模型服务平台百炼深度集成,实现百炼模型 API 层面的可观测指标全覆盖,并应用于性能观测、稳定性评估、成本管控、安全合规等不同应用场景,帮助企业优化资源配置和业务决策。同时,SLS 核心能力大幅提升,扫描性能提升 10 倍,达到 1GB/s 以上;处理性能提升至 TB 级每分钟,单 GB 处理成本降低60%。此外,SLS 推出 Elasticsearch 兼容方案,相较于自建其综合成本可降30% 以上。

据悉,阿里云已为全球 80 余个国家的百万企业级用户提供高效便捷、安全稳定的可观测服务。

  • 茶百道基于 ARMS 快速建立运维观测与响应能力,故障恢复效率提升 50% 以上;
  • 传音借助 Prometheus、Grafana 等可观测产品,业务上线效率提高 60%;
  • 极氪基于阿里云可观测产品推行的应急响应机制与 ChatOps 协同机制,告警平均恢复耗时缩短 50%。

云栖大会剪影

posted @   阿里云云原生  阅读(26)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-02-10 10 亿月活用户下,快手基于 Dragonfly 的超大规模镜像分发实践
2023-02-10 技术服务深耕本地市场:阿里云在日本的探索与实践|国家经理专栏
2023-02-10 2022阿里云技术年报:基础产品篇
2023-02-10 重磅发布丨《云原生实战指南》助力企业上云实践!
2023-02-10 应用纳管和灰度发布:谐云基于 KubeVela 的企业级云原生实践
2023-02-10 阿里云容器服务 ACK 产品技术动态(202212)
2023-02-10 从 JDK 9 到 19,我们帮您提炼了和云原生场景有关的能力列表(上)
点击右上角即可分享
微信分享提示