cpu100排查

这里模拟一下排查过程

连接远程服务器#

ssh root@yourServerAddress

编写测试出问题的代码#

Copy
import java.util.concurrent.TimeUnit;

/**
 * @author quaint
 * @date 23 March 2020
 * @since 1.38
 */
public class Test {

    public static void main(String[] args) throws Exception{

        for (int i = 0;; i++){
            System.out.println(i);
            TimeUnit.MILLISECONDS.sleep(10);
        }

    }

}

运行测试代码#

Copy
1
2
3
4
5
....

再开一个终端连接到当前服务器#

ssh root@yourServerAddress

开始排查#

  • 如果cpu100. 则直接使用top 命令就可以看到 java 在最上面。
  • 这里只是模拟,所以并没有占到100
  • 先通过ps -ef | grep java 找到对应测试的java pid
  • 假设这个pid 就是 占cpu 100 的那个java进程

找到占用cpu 最高的 java pid#

这里我们的目标是 Test,他的pid 是 30212

Copy
[root@quaint ~]# ps -ef | grep java
root     30178     1  0 3月10 ?       00:38:47 java -jar quaintblog-0.0.1-SNAPSHOT.jar --server.port=80
root     30212 30031  1 12:04 pts/1    00:00:00 java Test
root     30236 30197  0 12:04 pts/2    00:00:00 grep --color=auto java

打印进程内部线程情况#

打印内部线程情况

Copy
[root@quaint ~]# top -Hp 30212

  PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND     
30213 root      20   0 2467620  26304  11936 S  3.0  1.4   0:00.20 java        
30212 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.00 java        
30214 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.00 java        
30215 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.00 java        
30216 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.00 java        
30217 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.00 java        
30218 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.04 java        
30219 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.02 java        
30220 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.00 java        
30224 root      20   0 2467620  26304  11936 S  0.0  1.4   0:00.01 java 

这里我们观察到了,占用cpu 最高的那个线程id 为 30213

将其转换为16进制

Copy
[root@quaint ~]# printf "%x\n" 30213
7605

打印出对应堆栈信息#

Copy
[root@quaint ~]# jstack 30212 | grep 0x7605
"main" #1 prio=5 os_prio=0 tid=0x00007f4fd004b000 nid=0x7605 waiting on condition [0x00007f4fd95bd000]

如上,找到了耗CPU高的线程对应的线程名称“main”,以及看到了该线程正在执行代码的堆栈。

最后,根据堆栈里的信息,寻找对应的代码!


如果出现下面问题,说明你的项目已经运行很久了。linux自动将你的pid 临时文件删除了。这里测试代码,不会出现这个问题

Copy
30212: Unable to open socket file: target process not responding or HotSpot VM not loaded
The -F option can be used when the target process is not responding

 

 
 

posted on 2022-04-14 17:21  小小鸟儿!  阅读(64)  评论(0编辑  收藏  举报