【故障公告】阿里云 RDS 数据库突发 CPU 近 100% 引发全站故障
今天晚上9点我们收到阿里云的告警通知:
【阿里云监控】华东1(杭州)-云数据库RDS版<cnblogsdb> [instanceId=xxx] 于21:00 发生告警, 前往诊断 CPU使用率平均值(98.25>=80 ), 持续时间4分钟, rds_CpuUsage
收到通知后,我们立即登录阿里云 RDS 控制台进行主备库切换,等主备库完成切换后一看并没有切换过来,赶紧再次进行切换,第2次切换成功了,切换完成后 CPU 立刻降至正常水平,全站恢复正常。
这次故障发生时间是8月20日20:55~21:14,由此给您带来麻烦,请您谅解。
上次发生同样故障是6月24日,详见 【故障公告】阿里云 RDS 实例 CPU 100% 故障引发全站无法正常访问。
阿里云数据库专家分析后怀疑是“LINQ 生成的 SQL 存在问题,导致概率性 SQL Server 出现参数嗅探问题”。
我们会进一步分析并优化这次引发参数嗅探问题的 SQL 语句。