线上CPU100%排查
引言
不知道在大家面试中,有没有遇到这个问题:
生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢?
这个问题分为两版回答!
-
高调版
- 对不起,我是做研发的,这个问题在生产上是不可能遇见的!因为研发是不可能直接操作生产服务器,如果贵公司能出现这个问题,应该要反思一下自己的权限控制是否合理!
- 面试官心里活动:装13是不是,赶紧走!
-
低调版
- 这个问题我在生产上没碰到过,因为我们是没法直接操作生产环境的。只能说,在测试环境曾经遇见过。操作步骤如下,balabala…
- 面试官心里活动:权限控制的不错,应该是在大厂呆过。
下面开始我们的正文
正文
下面给出两种系统下的排查步骤,都是一模一样的,只是命令稍有区别!
-
查消耗cpu最高的进程PID
-
根据PID查出消耗cpu最高的线程号
-
根据线程号查出对应的java线程,进行处理。
准备一行死循环代码:
public class TestFor{
public static void main(String [] args){
int random = 0;
while(random < 100){
random=random*10;
}
}
}
启动
windows版
可能有人有疑问,我为什么要说windows版的!因为,我曾经给很多政府部门做过系统。我发现他们用的是windows server,不是linux系统。所有必要说一下!
查消耗cpu最高的进程PID
手边没有windows server机器,我以win 10为例,截图给大家看一下,先调出PID显示项!
然后发现进程PID如下图所示,为5280
根据PID查出消耗cpu最高的线程号
这里用到微软的工具Process Explorer v16.22,地址如下
https://docs.microsoft.com/zh-cn/sysinternals/downloads/process-explorer
如图所示
发现最耗cpu的线程的TId为7768
这是十进制的数据,转成十六进制为1E58
根据线程号查出对应的java线程,进行处理
根据进程号执行命令,导出进程快照
jstack -l 5280 > C:\Users\Administrator\Desktop\5280.stack
打开文件 C:\Users\Administrator\Desktop\5280.stack,搜索1E58,如下图所示
根据文件就可以看出,我们的TestFor.java文件第五行一直在跑,至此定位到问题
Linux版
Linux版本,步骤是一模一样的,就是命令换了一下
查消耗cpu最高的进程PID
查消耗cpu最高的进程PID
执行命令 top -c
显示进程运行信息列表。按下P,进程按照cpu使用率排序
如下图所示,PID为17042的进程耗费cpu最高
根据PID查出消耗cpu最高的线程号
执行命令 top -Hp 17042
显示一个进程的线程运行信息列表。按下P,进程按照cpu使用率排序
如下图所示,PID为17043的线程耗费cpu最高
这是十进制的数据,转成十六进制为0x4293
根据线程号查出对应的java线程,进行处理
根据进程号执行命令,导出进程快照
jstack -l 17042 > /root/17042.stack
然后执行,grep命令,看线程0x4293做了什么
cat 17042.stack | grep '4293' -C 8
输出如下
至此定位到问题
参考
孤独烟 Java后端技术
您的资助是我最大的动力!
金额随意,欢迎来赏!