生产环境项目问题记录系列(一):一次循环数据库拖垮服务器问题
心血来潮,决定时不时记录下生产项目中遇到的问题。
今天的问题是这样的,昨天晚上大约7点左右,服务器报警,CPU暴涨。通过监控页面发现某个订阅MQ的服务接口有400多个超过10秒的请求(正常只有100-200ms),第一时间怀疑是不是MQ发生了问题,短时间里发送了大量MQ,但是细想又不会,毕竟MQ设置了最大限度。
想也没有,动手查才是最准确的,通过ELK发现2分半时间发了1500个MQ,并不多(1000个/每分钟是正常的)。MQ没问题开始考虑是不是代码问题,去查了下代码没发现特别显眼的问题。项目Leader把cat扔给我去查,不查不知道,一查吓一跳,单个请求执行了1000个sql,平均耗时5ms。
再联想到代码里有两个循环,通过查询请求数据发现,果然一条MQ里携带了1000多条需要更新的数据,1500个就要循环一百多万次,也难怪服务器会报警。
处理流程:第一时间关闭了当前的MQ,然后将循环更新修改为批量更新,1000条数据更新一次300ms左右,修改完上线重新打开,异常解决。