【故障公告】阿里云 RDS SQL Server 数据库实例 CPU 100% 引发全站故障
非常抱歉,今天 8:48 开始,我们使用的阿里云 RDS SQL Server 数据库实例突然出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解。
发现故障后立即进行主备切换,和往常一样,第1次主备切换失败,第2次主备切换完成后恢复正常。
上次同样故障发生在2020年11月3日,详见 【故障公告】访问高峰数据库服务器 CPU 100% 引发全站故障
阿里云 RDS CPU 100% 问题,不知为何,不知何时,但每年总要发生几次,至今仍是未解之谜。
【更新】
经过阿里云数据库专家的排查与分析,定位出问题是一段 SQL 语句的“参数嗅探”引起的,并提出了建议与改进:
1. 针对该语句建立索引,避免走全表扫描
2. 修改语句,增加Recompile提示,但该方式不推荐,因为有较高的编译成本,并需要修改语句
3. 可以升级到SQL Server 2017或者更高的版本,启动Automatic Tuning规避该问题
注:目前我们用的是 SQL Server 2016。