Silentdoer

导航

线上出现问题的解决方案

1.优先恢复业务,然后再排查原因和排查数据丢失错乱之类的;

首先明确一点,就是线上突然出现问题,说明至少代码逻辑没有十分明显的bug,否则刚上线没多久就该验证出来了;

如果是刚上线没多久出现的问题,很明显是回退应用来看是否能恢复业务;

 

如果是上线蛮久后出现问题,代码一般是没有十分大的问题,这种情况一般是比如IO问题,流量过大等等问题导致的;

这种情况是以恢复业务为主,不用想数据是不是已经错乱等问题那么快,要知道轻重缓急,如果不尽快恢复业务,会持续影响新的人,到时候就不只是已经出问题的用户抱怨了;

等业务恢复后再来排查原因(当然回退仍然是业务恢复的手段之一,毕竟虽然上线蛮久了也还是可能新功能导致的问题),以及排查数据有没有问题进行修正;

 

重点就是:如果不及时恢复业务,影响的就不只是已经受影响的用户(哪怕他们数据已经出问题了,也不要排查那么快),而是直接变成整体服务都不可用了;

 

当然有些场景就是要先找出问题,才能恢复业务的除外(比如某些数据配置错误导致的问题【因为配置我们一般都会默认认为是正确的而不会去做错误判断,有些甚至也没法校验配置格式是否正确;而且如果配置都要判断是否正确某种意义上就是套娃了,判断的点会十分巨大】)

posted on 2022-12-27 10:06  Silentdoer  阅读(176)  评论(0编辑  收藏  举报