Loading

[文档]运维故障报告template

RCA的基本概念

  根本原因分析技术(root cause analysis,RCA)。

  IOWA州立大学质量管理学院认为,很多公司在设备发生故障后,都能够很快修复,

  但难以发现故障的根本原因,所以此故障会再次发生。根本原因分析技术是一个发现和消除这些原因的过程,

  只有当这个根本原因被发现和消除后,这个问题才能够被彻底解决。

  下面是我在日常运维故障处理一个RCA模板。

for example:

问题根本原因分析(RCA)报告

客户信息:

RCA 索引号:

问题发生日期:

问题解决日期:

xxx运营商

 2021901

2019/03/27

2019/03/27

RCA 负责人:  运维A

事件发生日期及时间: 2020/03/27

事件恢复日期及时间: 2020/03/27

相关问题/事件索引号:

事件恢复记录:

日期

时间

恢复记录

2020/03/27

15:20

日常巡检,发现ceph集群一个montior  down

2020/03/27

15:23

查看日志,找到原因

2020/03/27

15:26

解决完成

问题描述:

运维人员日常巡检发现主机Control01 montior  down掉,业务不受影响,montior高可用部署

问题具体情况及影响面:

具体情况:

宿主机Control01, 根盘使用率接近满了,导致集群检测到空间不足,自动kill掉该该montior,

影响面:

对业务没有影响

问题发现:

运维A人员巡检发现

问题分析:

1、查看ceph集群的健康状态,发现问题

2、ceph health detail 找到了具体的故障montior节点,进去节点查看日志,发现日志提示

根盘超过Mon_data_avail_cri定义的值t导致montior down掉

问题的类型:

存储集群异常

问题的根本原因:

Control01 monitor节点根磁盘空间接近满了

解决方案:

清理故障montior节点根盘无用数据

预防措施:

1、定期巡检系统根盘空间

2、谨慎存放大文件到根盘

posted @ 2022-02-16 09:00  一介布衣·GZ  阅读(1288)  评论(0编辑  收藏  举报