代码逻辑死循环导致线上CPU飙升问题排查
背景
今天下午出现告警提示线上环境机器的CPU突增到100%,持续约两分钟又回落到正常水平。
结论
文件导出时由于逻辑漏洞导致部分场景,填充excel时出现死循环,当数据填充到一定量时,就会抛异常而后捕捉到,跳出循环。
一般场景分析
一般来说,CPU高有以下几种常见原因:
业务请求和处理的并发量大,并且业务中包含较大的运算量;
业务代码存在Bug,出现了过多的冗余计算或者死循环;
由于可用内存空间不足(包括分配太小,内存没有合理释放导致的泄露),导致频繁进行垃圾回收造成的高CPU;
排查流程
出现问题时,注意是问题发生的时候,问题已经不存在了,现场已经被破坏了,如机器重启,如异常消失等,都无法通过一下方式探析,因为这类问题属于实时问题范畴。
1 2 3 4 5 6 7 8 | 1.使用 top 命令查看使用CPU过高的进程 top 2.使用 top -H -p [pid]查看使用CPU过高的线程 top -H -p 1113 3.使用jstack -l [pid]查看jvm当前的线程信息 jstack -l 1113 输出日志中,重点关注nid 的值,可以看到是16进制的,把之前使用 top -H -p 1113获取到的线程id转成16进制(比如上面的1114对应16进制45a),用这个值过滤 jstack -l 1113 | grep 45a 这样就能定位到有问题的线程了。 |
上述流程不可用,我们可以借助gc.log来分析
1.运行sz filename,会将文件下载到windows本地
2.可以使用https://gceasy.io/,用来分析gc日志,帮助我们判断问题。
排查概要
发现告警时,CPU水平已经回落了,因为CPU飙升问题的排查具有实时性的特点,借助gc.log去进行分析。
本篇文章如有帮助到您,请给「翎野君」点个赞,感谢您的支持。
出处:http://www.cnblogs.com/lingyejun/
若本文如对您有帮助,不妨点击一下右下角的【推荐】。
如果您喜欢或希望看到更多我的文章,可扫描二维码关注我的微信公众号《翎野君》。
转载文章请务必保留出处和署名,否则保留追究法律责任的权利。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通