q我吧

故障排查复盘

上周四晚上熬了大半个通宵,处理生产环境中微服务间相互调用问题,现象服务之间相互调用时好时不好,出故障之前有人修改过网关,重启过网关。

结论:问题出在注册中心上,有一台注册中心挂掉了,Eureka注册中心相互注册,启动是有顺序
有小伙伴在前一天把jenkins 弄崩了,重新安装了 添加服务器的顺序打乱了,导致注册中心启动不是按顺序启动,本该在第二顺序启动的注册中心先启动了,这个注册中心作为客户端向另外的注册中心发起注册时没注册上,一直处于失联状态,微服务通过网关调用轮洵到这个注册中心拿客户端调用地址时为空,致服务间调用不成功

复盘:
1,任何重大修改前做好 备份,出了问题要能马上恢复还原,jenkins 挂了并没有做好备份,导致部署差不多花大半天时间,并把服务器顺序打乱了 没有完全复原,
2,任何修改不能影响其他业务系统 尤其是公共组件 如微服务网关、注册中心
3,部署任何服务时,必须保证100%能正常访问,有小伙伴重启了注册中心,其实重启后的注册中心挂了一台并不知情
4, 要及时联合上下游业务方一起排查,要保持独立思考, 排查问题的时候,大家给出的排查方法很多,有可能只有一个是对的,要深度思考,如果每一个都试一下,显然不现实,而且浪费宝贵的时间,给出了很多没有用有干扰的错误日志信息,为了验证这些错误担误排查时间
5,最好有一个业务系统全局观,至少出现问题的时候能验证,当时挂掉的那台注册中心在另一个部门的服务器上,没有及时排到这台注册中心是不是正常
6,核实知识理解的不到位,知其然不知其所以然,当时花了很大一部分时间在网关上,其实网关只是转发及一个中介,并没有最先排查到注册中心

posted @   渲起浪花  阅读(12)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· 因为Apifox不支持离线,我果断选择了Apipost!
点击右上角即可分享
微信分享提示