[不好分类]用四线复盘法仿照语雀故障分析内部一起MES系统故障处理的过程

近期公司发生一起信息系统故障,尝试按着语雀的故障报告分析一下。

参考《互联网大厂晋升指南》书中的四线复盘法。极客帮中也有李运华老师的同名课程《https://time.geekbang.org/column/article/341937》

问题复盘的内容涵盖事实、分析、定责和改进4 个部分,一次成功的问题复盘需要达成以下 4 个目标:
讲清楚事实:事实是复盘的基础,如果连事实都没有讲清楚就开始分析、定责和改进,无异于搭建空中楼阁,做得再漂亮也是没有意义的。
全面且深入地分析:首先需要保证没有遗漏问题,其次需要深入分析问题根因,否则以后问题还是会以其他方式反复出现。
得出让各方心服口服的定责结论:需要有明确的定责标准,避免拍脑袋定责,或者按照级别和关系来定责。
制定可以落地的改进措施:避免提出一些虚头巴脑的措施,看起来高大上,实际上却不知道怎么落地,后续也无法跟踪。
这一讲分享的四线复盘法,就是通过时间线、问题链、责任链和改进线这 4 条不同的线索来展开复盘,从而实现事实、分析、定责和改进这 4 个部分的目标。
如果你是复盘负责人,四线复盘法可以让你不偏不倚、公平公正地组织复盘;如果你是复盘参与人,它可以让你避免背不必要的黑锅。当然,如果出现问题确实是你的责任,它也不会教你怎么逃避责任,而是会告诉你怎么思考和改进。
接下来,我会针对每条线索逐一讲解说明。
第一条线:时间线为了讲清楚事实,我们要明确时间线,也就是问题发生的经过,包括问题发现、问题处理过程中采取的各种关键措施、问题恢复的时间和问题影响的结果等。
其中,时间信息非常关键,因为它能够反映出问题发现速度、各项措施执行时间和团队响应效率等指标。比如,运维重启 30 台机器花了 1 小时,通常情况下这种处理效率肯定是有问题的。
第二条线:问题链为了全面且深入的分析,我们要明确问题链,也就是问题的传导路径。通常情况下,一个问题往往不是单一原因导致的,而是多个原因“碰巧”组合在一起所导致的,所以分析整个问题的传导路径,才能全面地了解产生问题的过程。
同时,针对单个问题的分析也不能浅尝辄止,而应该采用第 26 讲的“5W 根因分析法”深入分析,找到根本原因,这样才能为后续制定改进措施提供有效的指导。问题链的路径逻辑有两类:业务流程和项目流程。业务流程是指,端到端的业务处理的过程,分析的对象是各个关联的系统。
项目流程是指,端到端的项目开发的过程,分析的对象是项目各个阶段相关的人员,比如开发、测试、产品和运维等。我们一般先采用业务流程的逻辑将问题定位到单个系统,然后再针对单个系统采用项目流程的方式将问题定位到具体的人或者流程中的某个步骤。
第三条线......

时间线

10月18日

8:24 用户提报MES系统收付关系有误,无法获取进出厂班量。

9:12管理员答复,核查一下。

10月19日

21:00 芳烃、烯烃、塑料等车间反馈班量采集错误。

22:59

管理员答复,发现约5个装置的进出厂收付关系丢失。第二日会核实后重建。

10月20日

8:46 调度部门请信息部门核查,确认是否近期项目是否导致收付关系丢失。

8:51 信息部门答复,项目组未进行变更。(后经确认,变更为甲方信息部门其他人员变更)

9:13 信息部门负责人要求各业务部门、运维部门、信息部门共同查明原因。

9:56 信息部门专家答复会进行核查。

20:47 芳烃人员反馈H2仍然无法修改。多个装置收付关系缺失。

21:07 信息部门员工答复联系顾问诊断。

21:50 调度部门专家再次请信息部门领导确认项目对数据的影响。

22:22 信息部门员工答复目前项目尚未对炼油、芳烃操作。

10月21日

8:02 MES管理员答复,已对芳烃、炼油收付关系重建。并请各厂装置人员主动确认是否有缺失,如缺失请重建。

16:35 管理员答复收付关系已重建完毕,请大家观察。故障基本处理完毕

故障原因分析

1、根原因:项目团队成员(甲方)私自删除部分收付关系,导致故障,并且未及时告知运维团队。

2、运维团队未能有效与业务沟通,备份常见收付关系。

3、各团队界面相对模糊,发生故障时,未能有效响应。

4、项目管理方面存在责任不明确的现象,未能编制变更方案,未能编制测试和回退方案。

后续改进措施

1、加强项目管理团队在项目建设过程的约束。例如重大变更必须编制方案且必须经过审核。严格管控管理员权限,并采用实名制,避免多人共用一个账户,包括管理员账号、数据库账户等。

2、加强运维团队和业务部门的互动,定期培训灾难情况如何操作并进行应急演练。

3、严格各方工作界面的确定。对于各类故障应该在多长时间恢复。

4、需要综合考虑系统重要性,以确定是否要建立备份和容灾机制。

责任追究与内部团队考核

1、项目管理团队,扣发当月绩效;补充完善后续变更方案。

2、未能及时进行故障恢复导致业务受损,运维团队,依据运维合同进行考核。

3、信息部门未能与业务部门共同组织培训,建议考核。

posted @ 2023-10-25 09:13  viphhs  阅读(29)  评论(0编辑  收藏  举报