极致用云,数智护航
简介:我们邀请到了阿里云混合云监控平台(Sunfire)团队负责人王肇刚来给我们分析下阿里背后的数字化业务运维安全工程标准及解决方案。 本次分享涵盖了全新发布的数字化业务运维安全工程标准、安全生产解决方案,以及全新升级的产品能力:包括了全栈统一运维、全景监控和全周期安全工程相关产品能力的介绍,也包含了对产品解决方案在客户侧落地的最佳实践分享。
本次分享涵盖了全新发布的数字化业务运维安全工程标准、安全生产解决方案,以及全新升级的产品能力:包括了全栈统一运维、全景监控和全周期安全工程相关产品能力的介绍,也包含了对产品解决方案在客户侧落地的最佳实践分享。
混合云新一代运维
混合云新一代业务运维:数字化业务运维系统工程
规模会越来越大,从单个业务上云到多个业务上云,云上资源从百台到千台。这些变化带来的挑战是技术风险导致的影响面扩大、范围变广、修复成本变高。如果企业核心业务的稳定性出现了波动乃至出现故障,轻则影响体验、口碑并带来客户投入,重则导致巨大经济损失,甚至威胁企业的生存。
企业的技术栈越来越复杂,从单云到多云,从专有云到混合云;从传统开发到使用新技术开;企业IT系统的基础架构也是多云环境、多技术栈并存;不同企业的数据的分析、治理、存储和展现能力也存在差异。这些复杂性带来的挑战是:故障多、定位难、稳定性不可控。已知故障报警量多、未知故障潜伏期长,定界定位慢、响应慢、恢复慢,故障无法根除。而故障的重复发生会进一步导致影响时间、范围和发生频率不可控。
企业组织架构越来越标准化,组织分工标准化,即职责权定义清晰;人员能力标准化,即专业运维知识能力、操作能力、决策能力;协同标准化,即上下级、同级、内外协作标准化;决策架构标准化,即决策架构变化不会的导致技术运维能力的变化。对于刚进入数字化企业来说,组织完全没有达到这个标准能力,带来的挑战就是:协同难,扯皮多、定责难;山头文化,跨组织跨团队协作难;出问题,找不到责任人;责任不清,问题无人解决。
面向这些变化与挑战,在未来5年里,企业云上业务的“可靠性”和“连续性”成为企业发展决定性因素。为了助力企业上云、用云过程中应对这些变化和挑战,阿里云混合云平台推出了混合云新一代运维标准:数字化业务运维系统工程,即“全栈统一运维”、“全景可观测”、“全周期安全工程” 三大能力,系统性保障数字化业务安全可靠。
混合云一体化安全生产(安全工程)解决方案
- 防-全周期安全工程, 识别故障风险, 构建故障主动防御体系;
从代码源头开始,严控代码质量和上线标准,通过主动防御型策略、专家知识库、智能风险检测、恶意识别、风险审计、高危拦截、集中统一管控、高可用架构等构建主动且完备的事前防护体系,将业务故障拦于门外。
- 监-全景可观测能力, 建立从业务-应用-云资源全链路监控的能力,发现并定界异常,秒级预警;
我们的产品提供全景监控(业务/应用/云平台)能力。全面支持混合云形态下的客户侧监控需求;提供智能监控(智能基线、黄金指标异常检测等)能力,精准高效地发现故障、并迅速判定故障的级别和影响面,并对故障原因作出定界。同时,我们也提供报警处理和监控运维联动能力,智能化地收敛与分级报警,并联动运维平台触发故障自愈和应用弹性扩/缩容。
- 管-全栈统一运维, 构建数字化统一业务治理能力;
面向双态的业务应用运维,提供业务中台运维、资源调度、作业支撑、集中集成能力,解决企业运维看、管、控的需求,并实现日常运维数字化、智能化。我们利用应用生命周期中产生的海量数据(系统,监控,日志,调用链路等数据),通过平台大数据分析以及机器学习,主动探测发现系统存在的风险,并且提供自动快速应对能力。可以大幅提升企业整体运维效率。
- 控-全周期安全工程,快速解决问题,及时应急恢复止损。产品化支持故障复盘与改进计划落地,加固事前主动防御和能力验证;
通过应急控制能力,快速解决问题,及时应急恢复止损,控制故障影响面。并对原因复查改进,加固事前主动防御,并常态进行常态化有效性验证(演练、压力测试),从而形成不断迭代,持续提升的安全生产能力。
数字化智能监控运维安全产品功能矩阵
云效监控运维域产品能力升级
持续可观测系统化:Sunfire2.0智能全景监控平台
业务监控能力升级
今年的阿里巴巴双十一预售已经开始,消费者的热情高涨,特别是薇娅和李佳琪两个大V做的直播给我们的系统带来了很大的流量冲击,淘宝的核心业务指标也确实出现了一个微小的波动。我们的秒级监控和智能报警的策略耗时47秒,从事情的发生到最后全局预警通告只花了47秒,触发了我们系统的快恢,这个故障还没有到故障级别就被消灭在无形之中,以至于很多消费者都来不及感知。
我们的监控能力会尽可能先于用户发现业务的问题。我们在业务链路的描述上和在大屏的展示上都有全新的能力升级,这背后是自研的大规模、分布式监控实施的引擎和智能化工程策略框架的支持。
应用和云资源监控能力升级
在云原生的理念下,企业采用K8S作为自己PAAS层的运维方式,能够被开源的Prometheus监控的对象可以直接被Sunfire平台监控并享受到Sunfire智能化的策略和强大的监控计算及存储能力。
报告(事件)和故障管理能力升级
云效监控运维域产品能力升级
100%IT运维数字化:Normandy智能运维平台产品架构
智能化运维能力升级
运营指挥大屏
数字化业务安全工程平台—护城河
白屏/黑屏化安全防护能力
- 我们护城河体系可以同时支持白屏化和黑屏化场景,进行安全防护。无论是资源管理授权统一管控、基于多终端运维方式,还是对于多协议运维扶持下保证客户完成安全防护。我们支持在指定的窗口下进行身份认证规避风险。
- 阿里巴巴集团有数万名技术员工通过操作我们的线上系统,护城河体系完成了整个的风险管控,也为阿里技术体系解决了运维操作的风险控制问题。现在,我们也把它放到云效监控运维的产品体系中提供给企业客户使用。
- 我们安全审计的能是符合国家等保要求的。通过对过程统一管控记录运维操作的情况发现里面的风险隐患。护城河平台基于智能化的能力做到了基于动态智能化发现潜在风险能力。
案例分享
Sunfire在能源行业的案例
运营指挥中心在证券行业案例
我和客户共建大屏时,首先对客户侧所有的场景进行梳理抽象出业务场景分发到大屏、中屏上,让客户进行不同的问题定位,设计成千上万的业务指标汇聚在运营大屏上,背后是根据客户异构的数据源,不同实效性的数据做自动归置和对齐,这种高效实时的处理机制是我们在证券行业非常好的落地。
本次内容就到这里,我们也希望在我们的新一代运维安全工程标准指引下,我们的安全生产解决方案和产品能力能够支持和服务更多的企业客户,一起让企业的云上业务运维更加高效、更加可靠、更加稳定!
原文链接
本文为阿里云原创内容,未经允许不得转载。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
2020-12-28 如何洞察市场,开展精准运营?这家服装企业是这么做的
2018-12-28 如何在 Intellij IDEA 更高效地将应用部署到容器服务 Kubernetes