[文档]运维故障报告template
RCA的基本概念
根本原因分析技术(root cause analysis,RCA)。
IOWA州立大学质量管理学院认为,很多公司在设备发生故障后,都能够很快修复,
但难以发现故障的根本原因,所以此故障会再次发生。根本原因分析技术是一个发现和消除这些原因的过程,
只有当这个根本原因被发现和消除后,这个问题才能够被彻底解决。
下面是我在日常运维故障处理一个RCA模板。
for example:#
问题根本原因分析(RCA)报告#
客户信息: |
RCA 索引号: |
问题发生日期: |
问题解决日期: |
||||||||||||
xxx运营商 |
2021901 |
2019/03/27 |
2019/03/27 |
||||||||||||
RCA 负责人: 运维A |
|||||||||||||||
事件发生日期及时间: 2020/03/27 |
|||||||||||||||
事件恢复日期及时间: 2020/03/27 |
|||||||||||||||
相关问题/事件索引号: |
|||||||||||||||
事件恢复记录:
|
|||||||||||||||
问题描述: |
|||||||||||||||
运维人员日常巡检发现主机Control01 montior down掉,业务不受影响,montior高可用部署 |
|||||||||||||||
问题具体情况及影响面: |
|||||||||||||||
具体情况: 宿主机Control01, 根盘使用率接近满了,导致集群检测到空间不足,自动kill掉该该montior, 影响面: 对业务没有影响 |
|||||||||||||||
问题发现: |
|||||||||||||||
运维A人员巡检发现 |
|||||||||||||||
问题分析: |
|||||||||||||||
1、查看ceph集群的健康状态,发现问题 2、ceph health detail 找到了具体的故障montior节点,进去节点查看日志,发现日志提示 根盘超过Mon_data_avail_cri定义的值t导致montior down掉 |
|||||||||||||||
问题的类型: |
|||||||||||||||
存储集群异常 |
|||||||||||||||
问题的根本原因: |
|||||||||||||||
Control01 monitor节点根磁盘空间接近满了 |
|||||||||||||||
解决方案: |
|||||||||||||||
清理故障montior节点根盘无用数据 |
|||||||||||||||
预防措施: |
|||||||||||||||
1、定期巡检系统根盘空间 2、谨慎存放大文件到根盘 |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」