【故障公告】阿里云 RDS 数据库服务器 CPU 100% 造成全站故障

github 故障公告链接:https://github.com/cnblogs/coder-service/issues/106

后续故障公告:升级阿里云 RDS SQL Server 实例故障经过

非常非常抱歉,今晚 19:34 ~ 21:16 园子所使用的阿里云 RDS 数据库服务器突然出现 CPU 100% 问题,造成全站无法正常访问,由此您带来了很大的麻烦,请您谅解。

故障经过是这样的。19:34 这个时间点本来是一个访问低峰,数据库压力比访问高峰时低很多,但数据库服务器却异想天开、吃饱了撑着地让自己的 CPU 满负荷工作(到现在我们都没想通,难道是服务器晚饭吃多了想帮助消化?)。开始我们以为是某个应用引起的,一个一个应用排查与重启, 但 CPU 不为所动,依然百分百。接着,我们一边向阿里云提交工单求助,一边通过阿里云 RDS 控制台进行主备切换,虽然控制台显示切换成功后,但“实例可用性”中主备库信息无任何变化,实际主备库切换并没有成功,绝招也失灵。请阿里云帮忙手动进行主备切换,但阿里云操作后反馈由于数据库访问压力大,手动也切换不过去,建议我们重启实例。最终,我们决定重启实例,重启实例后一切恢复正常。是的,就是用最笨的方法——重启——解决了问题,在故障期间我们采取的所有措施都是徒劳,让人哭笑不得。

望着今晚被狂风暴雨突袭后一片狼藉的园子,心中说不出的难受和愧疚。真的很抱歉,我们一直在努力建设园子,但今天的故障又告诉我们,没那么容易,我们的努力还不够,我们别无选择,唯有更加努力。

【更新】

00:22 开始将阿里云 RDS 实例从 SQL Server 2008 R2 升级至 2016

6:20  数据库升级完成

升级后大量数据库查询超时,正在紧急处理中。

9:20 升级后大量 SQL 需要编译,RDS 实例的 CPU 一直居高不下,由于阿里云 RDS 控制台中数据库实例一直处于“主备库切换中”状态中,即使想升级 CPU ,现在也无法进行。

9:50 从早上 8:50 开始阿里云 DBA 就开始重建备库,“主备库切换中”状态要等备库重建完成才能解除,升级服务器配置也要等备库重建完成。

10:29 备库重建完成,“主备库切换中”状态解除。

10:50 准备升级 RDS 配置,但阿里云升级配置页面的计价出现问题,即使配置保持不变,也要1万多元的费用。

11:05 进行了主备切换。

11:10 主备切换完成后,目前恢复了正常。

posted @ 2019-09-04 23:15  博客园团队  阅读(7791)  评论(122编辑  收藏  举报