【故障公告】一而再,再而三,三翻四复:数据库服务器 CPU 100%
【故障公告】一而再,再而三,三翻四复:数据库服务器 CPU 100%
会员救园,故障捣乱,每当困难时,故障们总是喜欢雪上加霜过来考验你。
今天下班前 17:43~17:47 期间,园子的 SQL Server 数据库服务器突然出现 CPU 100% 问题。
发现问题后,我们立即火速赶往阿里云RDS控制台,重启了实例,重启后很快恢复正常。
快到19点的时候,正当我们准备发布“一而再,再而三”的故障公告时,故障来了个快速反击,19:00 数据库服务器又突然出现 CPU 100% 问题。
我们再次火速赶往阿里云RDS控制台,这次没有重启实例,而是选择了主备切换,主备切换后,19:03 恢复了正常。
今天5分钟+3分钟的两次故障,如果给您带来了麻烦,请您谅解。
这是今年出现的第3、4次数据库服务器 CPU 100% 故障,上次出现在 2023-08-19,上上次出现在 2023-03-26。
园子的 SQL Server 数据库服务器用的是阿里云 RDS SQL Server 2016 标准版,16核32G,一年成本在10万左右,等以后条件具备时,我们打算换一种数据库。
之前阿里云数据库专家帮忙排查过,认为是参数嗅探问题造成 SQL Server 缓存了性能极差的执行计划,但我们不知道如何有效避免参数嗅探问题
漫思