生产环境项目问题记录系列(一):一次循环数据库拖垮服务器问题
心血来潮,决定时不时记录下生产项目中遇到的问题。
今天的问题是这样的,昨天晚上大约7点左右,服务器报警,CPU暴涨。通过监控页面发现某个订阅MQ的服务接口有400多个超过10秒的请求(正常只有100-200ms),第一时间怀疑是不是MQ发生了问题,短时间里发送了大量MQ,但是细想又不会,毕竟MQ设置了最大限度。
想也没有,动手查才是最准确的,通过ELK发现2分半时间发了1500个MQ,并不多(1000个/每分钟是正常的)。MQ没问题开始考虑是不是代码问题,去查了下代码没发现特别显眼的问题。项目Leader把cat扔给我去查,不查不知道,一查吓一跳,单个请求执行了1000个sql,平均耗时5ms。
再联想到代码里有两个循环,通过查询请求数据发现,果然一条MQ里携带了1000多条需要更新的数据,1500个就要循环一百多万次,也难怪服务器会报警。
处理流程:第一时间关闭了当前的MQ,然后将循环更新修改为批量更新,1000条数据更新一次300ms左右,修改完上线重新打开,异常解决。
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步