云上的芯脏病:奇怪的阿里云 RDS 数据库突发 CPU 近 100% 问题
最近遇到了奇怪的阿里云 RDS 数据库突发 CPU 近 100% 问题,遇到了3次。
第一次是10月12日(周六)凌晨 3:24 负载极低的时候开始出现,早上发现后进行了主备切换,恢复了正常。
第二次也是出现在10月12日,就在主备切换后不久,发现后又进行了主备切换,切换回之前出问题的服务器,恢复了正常。
第三次是昨天(10月18日)23:15 开始出现,今天早上(也是周六)发现后,再次通过主备切换恢复了正常。
阿里云 RDS 型号用的是 SQL Server 2016 标准版,是9月份从 SQL Server 2008 R2 升级上来的,配置是 16核CPU,32G内存,比升级之前的配置上了一个档次。
问题非常奇怪,目前还没找到线索,有待进一步观察。
我们没向阿里云提交工单,因为之前每次遇到类似的问题,阿里云都是让我们优化 SQL ,而没有一次是通过优化 SQL 解决的。
非常抱歉,这个突发的云上芯脏病问题给您带来了麻烦,请您谅解。