事故等级评定 and 事故处理流程制度(摘自rrc-wiki)

为加强和规范紧急事故/故障的处理和报告流程,保证事故/故障的快速恢复,使事故损失降低到最低程度,特制定本制度。

一、适用范围

  • 本流程适用于XXX所有产品线,所有线上的事故处理。
  • 线上事故是指在线上服务中出现的功能故障或中断、数据错误等现象,对用户体检、流量、收入、品牌产生严重影响的现象。
  • 除通常意义上的线上事故外,上线后出现紧急回滚或紧急上线,亦属于事故范畴。
  • 提前安排并通过审批的服务单点切换、停机、mysql加索引等在约定时间内处理所发生的服务中断,不在事故处理范畴。

二、处理原则

  1. 降低损失:以降低损失为第一处理原则,尽可能降低和挽回在用户体检、收入、技术团队名誉等各方面的损失。
  2. 先上报后处理:涉及适用范围内的所有事故或故障采取先上报后处理的原则,各级人员应严格执行通报制度,在规定时间内向相应管理层上报事故及处理情况。
  3. 及时总结:每一次事故都是一次深刻教训,也是最好的学习机会。要及时总结,积极应对,借助每一次事故,积累经验,壮大自身。

三、事故处理基本流程

  1. 通报
    1. 任何可能带来损失的线上服务的中断,无论原因,在收到事故信息开始计,5分钟内,发起向上通报,不得拖延。通报,以确保对方收到信息为准。
    2. 发现事故之后,必须在15分钟之内,以电话或钉钉形式通知主管及可能受影响的产品线,以减少损失扩大。
    3. 如果不能或不需在当天处理,需及时通报处理进展和后续的处理方案。
    4. 要求于事故当天发出事故报告,提交到wiki。事故报告以描述清楚业务影响、处理过程、产品和技术原因为主,如已有明确的改进措施,可附上。
  2. 处理
    1. 检查事故原因,在短时间内尽快排除故障,或者确认不是故障;
  3. 总结
    1. 一般事故至少需要记录(包括精确到分钟的时间线,精确的PV/UV、线索、金钱等损失);严重事故及以上需要进行案例学习(Case Study),出台可执行措施,并监督执行,避免后续出现类似问题
    2. 在事故处理完成后,事故负责方应在一周内召集case study,进一步总结事故原因,分析事故造成的损失,界定事故级别,提出针对性的改进措施,并提交case study报告
    3. 【待定】对于事故造成严重损失的,参照事故级别,对事故相关责任人进行处罚。

---------------------------------------------------------------------------

错误举例:

 

事故记录

事故时间:

2018-01-17 19:43:00  至  2018-01-17 23:18:00

共计 3小时35分钟

事故影响:

1.新上架车源无法正常打开详情页,共影响车辆531辆

2.用户登录验证码无法正常校验通过,共拒绝登录人数60+人

事故时间轴:

2018-01-17 21:50:00 接到反馈,验证码无法正常校验通过,同时收到反馈,部分车辆详情页无法正常打开

2018-01-17 22:05:00 当晚没有携带电脑回家,和李建沟通,排查日志后,没有发现明显的慢请求或者错误日志,并且根据监控日志来看,没有大规模报警,初步判断与后端服务无关,当时有怀疑是redis写满导致的问题,由于查看了错误的redis配置,李建排查后反馈redis容量没有问题

2018-01-17 22:35:00 家中电脑临时搭建了环境,可以连接到我们内网环境后,排查了日志及各种redis写入的地方,均没有错误报出,连接线上redis机器后,尝试手动写入key,然后get出为空,查看配置文件与系统参数后,得出结论,redis已经写满,导致数据无法写入

2018-01-17 23:13:00 OP线上动态对redis进行了扩容,验证后正常,redis写入功能恢复,验证码登陆功能恢复正常

2018-01-18 01:05:00 将问题车辆全部进行了重新发布,车辆详情页恢复正常

事故后续跟进措施:

1.定位redis内存满时,返回正常的原因  2018-01-18

2.梳理redis集群的报警,添加内存监控报警 2018-01-18 

3.node层与php层错误处理 2018-01-18 

事故反思

1.c2b服务监控报警不健全,导致无法第一时间排查到问题原因 

2.切忌回家不携带电脑,或者家中要常备拥有查看线上服务权限的电脑,线上既是阵地,随时需要处于备战状态 

posted @ 2020-08-11 15:06  温柔的风  阅读(638)  评论(0编辑  收藏  举报