java 进程假死原因排查

1. 假死现象
服务程序假死具有以下特征:

1. 程序对请求没有任何响应;

2. 程序请求时没有任何日志输出;

3. 程序进程存在,通过jps或者ps查看进程,可以看到服务进程存在;

2. 造成假死的可能原因
1. java线程出现死锁,或所有线程被阻塞;

2. 数据库连接池中的连接耗尽,导致获取数据库连接时永久等待;

3. 出现了内存泄漏导致了OutOfMemory,内存空间不足导致分配内存空间持续失败;服务器的可用内存足够,但是分配给jvm的内存被耗尽的情况,容易出现这种情况;

4. 服务程序运行过程中替换了jar包,但是没有进行重启服务,这属于不按规则操作引起的问题;

5. 磁盘空间满,导致需要写数据的地方全部失败;

6. 线程池满,无法分配更多的线程来处理请求,通常是因为线程被大量阻塞在某个请求上;

3. 分析方法
1. 通过jstat查看内存使用和垃圾回收情况,查看内存占用情况以及垃圾回收情况是否异常;

2. 通过jmap -heap查看内存分配情况,查看是否内存空间被占满,导致无法分配足够的内存空间;

3. 通过jstack -F pid查找线程死锁,导出线程堆栈,然后查看线程状态;

4. 通过gclog查看垃圾回收原因,需要在服务启动时指定记录垃圾回收日志;

5. 通过jmap -dump:format=b,file=heap.bin 导出内存镜像文件,使用工具进行分析;

6. 通过jmap -histo查看内存对象;

4. 一般情况分析
1. 如果内存空闲空间充足,可以确定不是内存不足引起;

2. 如果垃圾回收日志正常,包括年轻代和老年代,也基本可以确定不是内存不足引起;

3. 通过查看内存中的对象实例和占用空间,如果没有特别大的情况,也基本可以确定不是内存不足引起;

4. 排除了内存不足的原因,就需要重点分析是否线程被阻塞在某个位置了;



 

常规排查
1、查看服务进程中线程情况
top -H -p pid

ps -mp pid -o THREAD,tid,time

2、查看系统异常线程16进制
printf “%x\n” nid

3、查看异常线程堆栈信息
jstack pid | grep number
1
查看占用最大内存对象前一百

jmap -histo pid|head -100
导出到文件

jstack -l PID >> a.log
或dump信息使用工具Mat或JProfiler查看

jmap -dump:live,format=b,file=/dump.bin pid

posted @ 2023-04-07 14:13  HalleyZ  阅读(1987)  评论(0编辑  收藏  举报