SRE 基础设施故障处理流程
目标
- 规范化基础设施故障处理
- 对故障处理的各个环节进行观测与 Kaizen
- 沉淀故障处理中的技术积累
故障处理的工作流
故障感知 -> 故障响应 -> 故障处理 ->. 故障复盘
故障感知
- 提前对影响业务支撑结果的基础设施上建立观测能力,目前的主要手段是将监控目标转换为「监控系统的告警规则」,以及发现异常后借助「监控系统」进行告警同志
故障响应
- SRE 值班人员作为第一故障响应人
- SLA 负责人对其负责的基础设施告警作为第二故障响应人
- 其他告警升级策略
故障处理
- 通知到该故障可能受影响的业务方
- 着手处理故障
- 在「warning」等级的告警出发并 15m 无头绪时,执行告警升级策略
- 在「warning」等级以上的告警触发并 15m 无头绪时,执行告警升级策略
- 偏向「短期解法」使用快速有效的手段修复故障或降低故障影响
- 确认「故障恢复」或者「故障影响」在「可接受的范围」
- 向业务方同步故障处理的结果
故障复盘
- SRE 内部复盘
- 故障响应保持 SLA 达成
- 故障感知是否存在可迭代空间
- 各级故障响应是否达成 SLA
- 故障处理保持高效
- 在处理故障过程中遇到哪些问题,以及感知到哪些可能存在的问题
- 故障处理的「耗时分布」是否存在可优化空间
- 持续改进
- 讨论「长期解决方案」并将任务拆解,加入需求池子中
- 编写「故障 Case」收录到对应的「基础设施专栏」
- 故障响应保持 SLA 达成
- 与业务方了解业务受损情况
- 用户侧:了解用户直接感受到的影响
- 服务侧:了解服务端感受到表现
- 产品侧:了解对产品核心指标的影响
- 根据故障评级决定是否需要公司级的「验尸报告」

浙公网安备 33010602011771号