线上出现问题的解决方案
1.优先恢复业务,然后再排查原因和排查数据丢失错乱之类的;
首先明确一点,就是线上突然出现问题,说明至少代码逻辑没有十分明显的bug,否则刚上线没多久就该验证出来了;
如果是刚上线没多久出现的问题,很明显是回退应用来看是否能恢复业务;
如果是上线蛮久后出现问题,代码一般是没有十分大的问题,这种情况一般是比如IO问题,流量过大等等问题导致的;
这种情况是以恢复业务为主,不用想数据是不是已经错乱等问题那么快,要知道轻重缓急,如果不尽快恢复业务,会持续影响新的人,到时候就不只是已经出问题的用户抱怨了;
等业务恢复后再来排查原因(当然回退仍然是业务恢复的手段之一,毕竟虽然上线蛮久了也还是可能新功能导致的问题),以及排查数据有没有问题进行修正;
重点就是:如果不及时恢复业务,影响的就不只是已经受影响的用户(哪怕他们数据已经出问题了,也不要排查那么快),而是直接变成整体服务都不可用了;
当然有些场景就是要先找出问题,才能恢复业务的除外(比如某些数据配置错误导致的问题【因为配置我们一般都会默认认为是正确的而不会去做错误判断,有些甚至也没法校验配置格式是否正确;而且如果配置都要判断是否正确某种意义上就是套娃了,判断的点会十分巨大】)
作者:Silentdoer
欢迎任何形式的转载,但请务必注明出处。
限于本人水平,如果随笔/文章及代码有表述不当之处,还请不吝赐教。
posted on 2022-12-27 10:06 Silentdoer 阅读(188) 评论(0) 编辑 收藏 举报
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 我干了两个月的大项目,开源了!
· 推荐一款非常好用的在线 SSH 管理工具
· 千万级的大表,如何做性能调优?
· 聊一聊 操作系统蓝屏 c0000102 的故障分析
· .NET周刊【1月第1期 2025-01-05】
2018-12-27 C#和java的对比及总结
2017-12-27 Java零碎总结