测试日常——生产故障的认知

生产故障的认知

生产问题的定义:生产环境上系统不符合生产预期、影响用户使用、不可用的问题。

一、 生产问题的定级
故障定级,一般来说有以下5级: 1)P1级别:系统中断2小时以上,造成客户投诉或者当天损失超过1万元 2)P2级别:系统中断30分钟-2小时之间,造成客户投诉或者当天损失超过0-1万元 3)P3级别:系统重要模块出现问题,造成大量用户投诉 4)P4级别:系统次要模块出现问题,造成部分用户投诉 5)P5级别:系统次要模块出现问题,造成少量用户投诉

二、生产问题的处理措施


代码层面造成的问题

1)快速定位问题

2)代码修复(注:别引发其他问题,测试覆盖要全面)

3)紧急上线

非代码层面的问题

1)宿主机出现问题:应用停服。进行宿主机修复如磁盘扩容、网路联通修复。或者应用迁移。

 2)基础服务不可用:要快速定位问题,基础服务是全公司在用的服务。考虑基础服务的故障恢复、高可用。

 3)被调服务异常:包括内部服务、第三方服务,建立超时机制,考虑服务的降级、熔断。

三、 生产问题的事后复盘
1)建立生产问题出现、定位、解决时间线

2)明确生产问题出现原因,给出具体结论

3)对生产问题的定位过程,如定位到问题的时间、方法,进行总结

4)建立完善的机制,避免同类似的问题再次出现

 

posted on   宋霏  阅读(29)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示