织密“安全云网”,天翼云探索构建分布式多场景云服务稳定性保障体系!

近日,中国信息通信研究院(以下简称“中国信通院”)主办,混沌工程实验室承办的信息通信领域系统稳定性保障沙龙·北京站成功举办。沙龙以“共筑数字免疫韧性长城,助力信息通信行业稳定安全运行”为主题,旨在促进信息通信领域系统稳定性保障技术交流,推动信息通信领域稳定安全运行水平提升,加强“稳保”领域的先进技术和人才合作。会上,天翼云科技有限公司高-级运维专家尹磊以《天翼云分布式多场景云服务稳定性探索实践》为题发表演讲。 

在应用全面上云的大背景下,云计算已经成为现代通讯系统的核心基础设施之一,其稳定性对于通信业务的正常运转至关重要。云服务作为部署在大规模硬件系统上的分布式软件系统,面向租户提供一系列的共享服务,其运行环境十分复杂。由于底层硬件存在一定的不稳定因素,如何在不稳定的环境中为用户提供稳定的服务,是云服务提供商所面临的一项重要挑战。

 

作为云服务国家队,天翼云探索出一套有效的稳定性保障体系并积极实践落地。围绕少出故障、不出重大事件、故障快速恢复、用户对故障无感知的目标,天翼云进行了分布式多场景云服务稳定性能力建设探索,率先以稳定性指标体系为牵引,以演练为有效验证手段,在可观可测、故障快速恢复、变更可信三大方面优先建设,构建了天翼云分布式多场景云服务稳定性保障能力的基础。

具体而言,天翼云为实现故障快速发现与精准定位,构建了“监”“测”“控”“观”“量”五位一体的立体化全链路可观测能力;在打造高效的故障处理与快速恢复能力方面,天翼云构建以SLO为目标的、基于正向的故障快速恢复能力;此外,变更风险是影响云服务稳定性的重大因素之一,针对可信变更,天翼云建立变更风险评估模型和规则,使变更风险的评估从依据个人经验变为依靠变更系统的功能。

高可用、高可靠、稳定安全的云服务能力建设,需要现网的效果反馈和不断迭代升级。天翼云构建了事前、事中、事后一体化的稳定性保障能力评价体系,推进稳保能力的正向建设与负向改进。同时,天翼云建设故障自动化注入的演练平台,通过演练场景、能力验证、效果复盘等步骤,来验证稳定性保障能力水平。

近年来,数字技术日新月异,信息化系统的重要性日益突显,系统稳定性成为企业顺利开展业务、实现可持续与高质量发展的关键。一直以来,天翼云为客户提供安全可信的产品和服务,并在稳定性保障体系建设方面走在行业前列,未来天翼云也将继续深耕云技术,通过提供更加稳定可靠的云服务,帮助企业构建起数字免疫韧性长城,护航企业行稳致远。

 

posted @ 2023-04-27 15:33  天翼云开发者社区  阅读(65)  评论(0编辑  收藏  举报