SRE 基础设施故障处理流程

目标

  • 规范化基础设施故障处理
  • 对故障处理的各个环节进行观测与 Kaizen
  • 沉淀故障处理中的技术积累

故障处理的工作流

故障感知  -> 故障响应  ->  故障处理  ->. 故障复盘

故障感知

  • 提前对影响业务支撑结果的基础设施上建立观测能力,目前的主要手段是将监控目标转换为「监控系统的告警规则」,以及发现异常后借助「监控系统」进行告警同志

故障响应

  • SRE 值班人员作为第一故障响应人
  • SLA 负责人对其负责的基础设施告警作为第二故障响应人
  • 其他告警升级策略

故障处理

  • 通知到该故障可能受影响的业务方
  • 着手处理故障
    • 在「warning」等级的告警出发并 15m 无头绪时,执行告警升级策略
    • 在「warning」等级以上的告警触发并 15m 无头绪时,执行告警升级策略
    • 偏向「短期解法」使用快速有效的手段修复故障或降低故障影响
    • 确认「故障恢复」或者「故障影响」在「可接受的范围」
  • 向业务方同步故障处理的结果

故障复盘

  • SRE 内部复盘
    • 故障响应保持 SLA 达成
      • 故障感知是否存在可迭代空间
      • 各级故障响应是否达成 SLA
    • 故障处理保持高效
      • 在处理故障过程中遇到哪些问题,以及感知到哪些可能存在的问题
      • 故障处理的「耗时分布」是否存在可优化空间
    • 持续改进
      • 讨论「长期解决方案」并将任务拆解,加入需求池子中
    • 编写「故障 Case」收录到对应的「基础设施专栏」
  • 与业务方了解业务受损情况
    • 用户侧:了解用户直接感受到的影响
    • 服务侧:了解服务端感受到表现
    • 产品侧:了解对产品核心指标的影响
  • 根据故障评级决定是否需要公司级的「验尸报告」
posted @ 2021-06-01 11:53  KevinT·Mitnick  阅读(388)  评论(0)    收藏  举报