cpu100排查
这里模拟一下排查过程
连接远程服务器#
ssh root@yourServerAddress
编写测试出问题的代码#
import java.util.concurrent.TimeUnit;
/**
* @author quaint
* @date 23 March 2020
* @since 1.38
*/
public class Test {
public static void main(String[] args) throws Exception{
for (int i = 0;; i++){
System.out.println(i);
TimeUnit.MILLISECONDS.sleep(10);
}
}
}
运行测试代码#
1
2
3
4
5
....
再开一个终端连接到当前服务器#
ssh root@yourServerAddress
开始排查#
- 如果cpu100. 则直接使用top 命令就可以看到 java 在最上面。
- 这里只是模拟,所以并没有占到100
- 先通过ps -ef | grep java 找到对应测试的java pid
- 假设这个pid 就是 占cpu 100 的那个java进程
找到占用cpu 最高的 java pid#
这里我们的目标是 Test,他的pid 是 30212
[root@quaint ~]# ps -ef | grep java
root 30178 1 0 3月10 ? 00:38:47 java -jar quaintblog-0.0.1-SNAPSHOT.jar --server.port=80
root 30212 30031 1 12:04 pts/1 00:00:00 java Test
root 30236 30197 0 12:04 pts/2 00:00:00 grep --color=auto java
打印进程内部线程情况#
打印内部线程情况
[root@quaint ~]# top -Hp 30212
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
30213 root 20 0 2467620 26304 11936 S 3.0 1.4 0:00.20 java
30212 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.00 java
30214 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.00 java
30215 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.00 java
30216 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.00 java
30217 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.00 java
30218 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.04 java
30219 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.02 java
30220 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.00 java
30224 root 20 0 2467620 26304 11936 S 0.0 1.4 0:00.01 java
这里我们观察到了,占用cpu 最高的那个线程id 为 30213
将其转换为16进制
[root@quaint ~]# printf "%x\n" 30213
7605
打印出对应堆栈信息#
[root@quaint ~]# jstack 30212 | grep 0x7605
"main" #1 prio=5 os_prio=0 tid=0x00007f4fd004b000 nid=0x7605 waiting on condition [0x00007f4fd95bd000]
如上,找到了耗CPU高的线程对应的线程名称“main”,以及看到了该线程正在执行代码的堆栈。
最后,根据堆栈里的信息,寻找对应的代码!
如果出现下面问题,说明你的项目已经运行很久了。linux自动将你的pid 临时文件删除了。这里测试代码,不会出现这个问题
30212: Unable to open socket file: target process not responding or HotSpot VM not loaded
The -F option can be used when the target process is not responding