记录一次证书过期导致业务大面积失效的问题
项目背景:机器人调度平台
迭代背景:敏捷开发
记录方向:测试活动中遇到的问题
记录时间:20211009
=========================================
问题点:
国庆7天长假过后,上班的第一件工作就是检查各个环境:dev、sit、uat等各个环境是否正常工作,很遗憾的事情是所有环境都处理挂掉状态,无法提供相关的功能服务,慌得一批;
经过肖师傅的长时间折腾发现各个环境都使用的https,授权的ssl证书失效,导致平台无法使用:
第三方工具:如devops、confluence等管理工具、如skywalking、portainer、github等开发工具、开发依赖组件都无法使用;
云平台:业务组件:微服务容器化、redis、mysql都无法访问;
问题分析:
当时采用https方式进行设计的时候没有运维人员没有考虑过证书过期问题(有效期1年),平台工具、业务都使用的同一个证书,导致过期回来后出现功能大面积瘫痪,开发、测试工作停滞;
问题处理:
将平台及业务功能使用不同的ssl证书,防止出现证书到期整个系统瘫痪,且不易维护;对相关的日常运维工作进行梳理并形成文档,避免出现人员请假、人员的流失导致重复的问题;对周期性的工作必须形成相关文档:提前预防处理,避免问题一旦出现措手不及,就像该次事件一样,万幸的是公司业务是TOB业务且业务量不大。