Silentdoer

导航

< 2025年1月 >
29 30 31 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
2 3 4 5 6 7 8

统计

线上出现问题的解决方案

1.优先恢复业务,然后再排查原因和排查数据丢失错乱之类的;

首先明确一点,就是线上突然出现问题,说明至少代码逻辑没有十分明显的bug,否则刚上线没多久就该验证出来了;

如果是刚上线没多久出现的问题,很明显是回退应用来看是否能恢复业务;

 

如果是上线蛮久后出现问题,代码一般是没有十分大的问题,这种情况一般是比如IO问题,流量过大等等问题导致的;

这种情况是以恢复业务为主,不用想数据是不是已经错乱等问题那么快,要知道轻重缓急,如果不尽快恢复业务,会持续影响新的人,到时候就不只是已经出问题的用户抱怨了;

等业务恢复后再来排查原因(当然回退仍然是业务恢复的手段之一,毕竟虽然上线蛮久了也还是可能新功能导致的问题),以及排查数据有没有问题进行修正;

 

重点就是:如果不及时恢复业务,影响的就不只是已经受影响的用户(哪怕他们数据已经出问题了,也不要排查那么快),而是直接变成整体服务都不可用了;

 

当然有些场景就是要先找出问题,才能恢复业务的除外(比如某些数据配置错误导致的问题【因为配置我们一般都会默认认为是正确的而不会去做错误判断,有些甚至也没法校验配置格式是否正确;而且如果配置都要判断是否正确某种意义上就是套娃了,判断的点会十分巨大】)

作者:Silentdoer
欢迎任何形式的转载,但请务必注明出处。
限于本人水平,如果随笔/文章及代码有表述不当之处,还请不吝赐教。

posted on   Silentdoer  阅读(188)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 我干了两个月的大项目,开源了!
· 推荐一款非常好用的在线 SSH 管理工具
· 千万级的大表,如何做性能调优?
· 聊一聊 操作系统蓝屏 c0000102 的故障分析
· .NET周刊【1月第1期 2025-01-05】
历史上的今天:
2018-12-27 C#和java的对比及总结
2017-12-27 Java零碎总结
点击右上角即可分享
微信分享提示