记录一次证书过期导致业务大面积失效的问题

 

项目背景:机器人调度平台

 

迭代背景:敏捷开发

 

记录方向:测试活动中遇到的问题

 

记录时间:20211009

=========================================

问题点:

国庆7天长假过后,上班的第一件工作就是检查各个环境:dev、sit、uat等各个环境是否正常工作,很遗憾的事情是所有环境都处理挂掉状态,无法提供相关的功能服务,慌得一批;

经过肖师傅的长时间折腾发现各个环境都使用的https,授权的ssl证书失效,导致平台无法使用:

第三方工具:如devops、confluence等管理工具、如skywalking、portainer、github等开发工具、开发依赖组件都无法使用;

云平台:业务组件:微服务容器化、redis、mysql都无法访问;

问题分析:

当时采用https方式进行设计的时候没有运维人员没有考虑过证书过期问题(有效期1年),平台工具、业务都使用的同一个证书,导致过期回来后出现功能大面积瘫痪,开发、测试工作停滞;

问题处理:

将平台及业务功能使用不同的ssl证书,防止出现证书到期整个系统瘫痪,且不易维护;对相关的日常运维工作进行梳理并形成文档,避免出现人员请假、人员的流失导致重复的问题;对周期性的工作必须形成相关文档:提前预防处理,避免问题一旦出现措手不及,就像该次事件一样,万幸的是公司业务是TOB业务且业务量不大。

 

posted @ 2021-10-09 09:55  小菜鸡1枚  阅读(74)  评论(0编辑  收藏  举报