SRE 基础设施故障处理流程

目标

规范化基础设施故障处理
对故障处理的各个环节进行观测与 Kaizen
沉淀故障处理中的技术积累

故障处理的工作流

故障感知 ->　故障响应 -> 故障处理 ->. 故障复盘

故障感知

提前对影响业务支撑结果的基础设施上建立观测能力，目前的主要手段是将监控目标转换为「监控系统的告警规则」，以及发现异常后借助「监控系统」进行告警同志

故障响应

SRE 值班人员作为第一故障响应人
SLA 负责人对其负责的基础设施告警作为第二故障响应人
其他告警升级策略

故障处理

通知到该故障可能受影响的业务方
着手处理故障

在「warning」等级的告警出发并 15m 无头绪时，执行告警升级策略
在「warning」等级以上的告警触发并 15m 无头绪时，执行告警升级策略
偏向「短期解法」使用快速有效的手段修复故障或降低故障影响
确认「故障恢复」或者「故障影响」在「可接受的范围」

向业务方同步故障处理的结果

故障复盘

SRE 内部复盘
- 故障响应保持 SLA 达成
  - 故障感知是否存在可迭代空间
  - 各级故障响应是否达成 SLA
- 故障处理保持高效
  - 在处理故障过程中遇到哪些问题，以及感知到哪些可能存在的问题
  - 故障处理的「耗时分布」是否存在可优化空间
- 持续改进
  - 讨论「长期解决方案」并将任务拆解，加入需求池子中
- 编写「故障 Case」收录到对应的「基础设施专栏」
与业务方了解业务受损情况
- 用户侧：了解用户直接感受到的影响
- 服务侧：了解服务端感受到表现
- 产品侧：了解对产品核心指标的影响
根据故障评级决定是否需要公司级的「验尸报告」

posted @ 2021-06-01 11:53 KevinT·Mitnick 阅读(388) 评论(0) 收藏举报

刷新页面返回顶部