JVM 调优/问题排查 浅谈

参考:https://www.cnblogs.com/xingzc/p/5756119.html

https://www.cnblogs.com/yang-hao/p/5939487.html

https://blog.csdn.net/chenjianandiyi/article/details/52442021

https://www.bilibili.com/video/av52674111

JVM指令

标准指令,X指令,XX指令,其中XX指令是调优的关键。

XX指令

boolean型:-XX:[+-] name 表示启用/禁用name属性。比如:-XX:+UseG1GC

KV类型:-XX:[+-] name=value

查看类指令

-XX:+PrintFlagsFinal 

JPS -l  查看JAVA进程PID

jinfo   -flag  <参数名 不写打印全部属性>  进程PID   查看进程属性值

jstat   查看JVM类装载、垃圾收集、jit编译

jstat  -gc pid  <间隔ms>  <连续打印次数> 

JMAP 堆内存dump 导出后用MAT分析

Jstack -l ${PID} (线程dump -l 打印锁信息)

打印进程7930的线程dump到txt文件,并下载到本地。SecureCRT作为Linux客户端为例。

 

Java 的内存模型

-  Young,年轻代(易被 GC)。Young 区被划分为三部分,Eden 区和两个大小严格相同的 Survivor 区,其中 Survivor 区间中,某一时刻只有其中一个是被使用的,另外一个留做垃圾收集时复制对象用,在 Young 区间变满的时候,minor GC 就会将存活的对象移到空闲的Survivor 区间中,根据 JVM 的策略,在经过几次垃圾收集后,任然存活于 Survivor 的对象将被移动到 Tenured 区间。

-  Tenured,终身代。Tenured 区主要保存生命周期长的对象,一般是一些老的对象,当一些对象在 Young 复制转移一定的次数以后,对象就会被转移到 Tenured 区,一般如果系统中用了 application 级别的缓存,缓存中的对象往往会被转移到这一区间。

-  Perm,永久代。(jdk8 PermSize被MetaspaceSize代替?) 主要保存 class,method,filed 对象,这部门的空间一般不会溢出,除非一次性加载了很多的类,不过在涉及到热部署的应用服务器的时候,有时候会遇到 java.lang.OutOfMemoryError : PermGen space 的错误,造成这个错误的很大原因就有可能是每次都重新部署,但是重新部署后,类的 class 没有被卸载掉,这样就造成了大量的 class 对象保存在了 perm 中,这种情况下,一般重新启动应用服务器可以解决问题。

Linux 修改 /tomcat/bin/catalina.sh 文件,把下面信息添加到文件第一行。

机子内存如果是 8G,一般 PermSize 配置是主要保证系统能稳定起来就行:

https://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html

JAVA_OPTS="-Dfile.encoding=UTF-8 -server -Xms6144m -Xmx6144m -XX:NewSize=1024m 
-XX:MaxNewSize=2048m -XX:PermSize=512m -XX:MaxPermSize=512m 
-XX:MaxTenuringThreshold=10 -XX:NewRatio=2 -XX:+DisableExplicitGC"
-Dfile.encoding:默认文件编码
-server:表示这是应用于服务器的配置,JVM 内部会有特殊处理的
-XX:+UseConcMarkSweepGC (CMS) 设置GC收集器(注意碎片化,见下文)
-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/heap/dump 让JVM在遇到OOM(OutOfMemoryError)时生成Dump文件

--堆栈设置
-Xmx1024m:设置JVM最大可用内存为1024MB(默认物理内存1/4)
-Xms1024m:设置JVM最小内存为1024m。此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。
-Xss128k:设置每个线程的栈大小。JDK5.0以后每个线程栈大小为1M(单线程栈不够用或线程过多都有可能栈溢出)

--设置年轻代
-Xmn1g:设置年轻代大小为1G。整个JVM内存大小=年轻代大小 + 年老代大小 + 持久代大小。
-XX:NewSize:设置年轻代大小
-XX:NewRatio=4:设置年轻代(包括 Eden 和两个 Survivor 区)与老年代的比值(除去永久代)。设置为 4,则年轻代与老年代所占比值为 1:4,年轻代占整个堆的 1/5
-XX:MaxNewSize:设置最大的年轻代大小
-XX:SurvivorRatio=n

--设置永久代
-XX:PermSize:设置永久代大小.jdk8 PermSize被MetaspaceSize代替?,MetaspaceSize共享heap,不会再有java.lang.OutOfMemoryError:PermGen space,可以不设置
-XX:MaxPermSize:设置最大永久代大小

--打印信息
-XX:+PrintGCDetails 
输出形式: [GC [DefNew: 8614K->8614K(9088K), 0.0000665 secs][Tenured: 112761K->10414K(121024K),0.0433488 secs] 121376K->10414K(130112K), 0.0436268 secs]
-XX:+PrintGCTimeStamps(打印GC发生的时间)
输出形式:11.851: [GC 98328K->93620K(130112K), 0.0082960 secs]
-XX:+PrintGCApplicationStoppedTime(GC程序暂停时间)
输出形式:Total time for which application threads were stopped: 0.0468229 seconds
-XX:+PrintGCApplicationConcurrentTime(打印每次GC前,程序未中断的执行时间,两次GC间隔?)
输出形式:Application time: 0.5291524 seconds


-XX:MaxTenuringThreshold=10:设置垃圾最大年龄,默认为:15。如果设置为 0 的话,则年轻代对象不经过 Survivor 区,直接进入年老代。对于年老代比较多的应用,可以提高效率。如果将此值设置为一个较大值,则年轻代对象会在 Survivor 区进行多次复制,这样可以增加对象再年轻代的存活时间,增加在年轻代即被回收的概论。
-XX:+DisableExplicitGC:这个将会忽略手动调用 GC 的代码使得 System.gc() 的调用就会变成一个空调用,完全不会触发任何 GC

并行GC 

-XX:+UseParallelOldGC

CMS 并发标记清除

 -XX:+UseConcMarkSweepGC

优点:STW时间短

缺点:碎片化问题,需要手动触发FULLGC或重启,解决碎片

Full  gc

full gc是对新生代,旧生代,以及持久代的统一回收,比较慢,系统中应当尽量减少full gc的次数。

如下几种情况下会发生full gc:

《老年代空间不足

《持久代空间不足

《CMS GC时出现了promotion failed和concurrent mode failure

《统计得到新生代minor gc时晋升到旧生代的平均大小小于旧生代剩余空间(分担担保)

《直接调用System.gc,可以DisableExplicitGC来禁止

《存在rmi调用时,默认会每分钟执行一次System.gc,可以通过-Dsun.rmi.dgc.server.gcInterval=3600000来设置大点的间隔。

调优建议

基本步骤:打印GC日志、通过日志分析项目吞吐量+STW、分析GC原因

GC日志分析工具:GCeasy网站、GcViewer(github) 有助于分析GC原因、并提出优化意见

GcViewer:https://www.cnblogs.com/o-andy-o/p/4058271.html  https://blog.csdn.net/u013213157/article/details/74687028

 

若JVM内存出现问题,首先考虑分析内存dump->hprof文件信息

代码调优优先参数调优,根本是找到代码问题,JVM调优只是最终手段

Jvm内存溢出:堆溢出(dump检查);metadata溢出(Class加载过多);栈总内存溢出(可能Tread过多);单线程栈溢出 等

设置-XX:+HeapDumpOnOutOfMemoryError  -XX:HeapDumpPath=/path/heap/dump

dump内存对比,推荐使用MAT,定位占用内存的 大对象或数量异常对象,

加大虚拟机内存,调整内存分配比例,检查引用释放问题(数组,容器,TL),检查局部变量(单线程栈溢出 )

Minor/Full GC频繁:(分别低于10s/10分钟一次,仅参考)

有无异常占用或是碎片:

dump内存对比gc前后,哪些对象一直不能被GC,哪些增长过于迅速。

检查引用释放问题。

减少大对象/数组等创建(复用、及时释放)

容量过小:

提高对应年代的内存容量。或调整年轻代老年代比例。

(年轻代太小会造成频繁MinorGC,导致更多对象进入老年代,导致频繁Full GC)

Minor/Full GC STW时间过长:(勇士超过50ms/1s,仅参考)

改变GC策略(CMS 最小停顿/G1 吞吐量大适合4g以上堆内存)。

堆内存可能过大,可适当缩小堆,

或集群、分布式处理,减少单进程堆大小且保证并发量

总结:

1、减少使用、创建全局变量和大对象,多复用减少new(),并及时释放;

2、调整新生代/老年代的大小到最合适;

3、选择合适的GC收集器;

简单例子

使用-Xmn调到1/3 总内存,避免年轻代过大,gc时间长。(用-XX:NewRatio设置可能无效,用 -Xmn)。

添加-XX:+PrintTenuringDistribution 参数观察各个Age的对象总大小,调整进入老年代年龄-XX:MaxTenuringThreshold。

-Xms -Xmx,最大最小值设置相同,防止垃圾收集器收缩堆产生额外开销

 

网络借鉴的调优总结

https://www.cnblogs.com/lcword/p/5857918.html

年轻代大小选择

 

  • 响应时间优先的应用尽可能设大,直到接近系统的最低响应时间限制(根据实际情况选择)。在此种情况下,年轻代收集发生的频率也是最小的。同时,减少到达年老代的对象。
  • 吞吐量优先的应用:尽可能的设置大,可能到达Gbit的程度。因为对响应时间没有要求,垃圾收集可以并行进行,一般适合8CPU以上的应用。

年老代大小选择

  • 响应时间优先的应用:年老代使用并发收集器,所以其大小需要小心设置,一般要考虑并发会话率会话持续时间等一些参数。如果堆设置小了,可以会造成内存碎片、高回收频率以及应用暂停而使用传统的标记清除方式;如果堆大了,则需要较长的收集时间。最优化的方案,一般需要参考以下数据获得: 减少年轻代和年老代花费的时间,一般会提高应用的效率
    • 并发垃圾收集信息
    • 持久代并发收集次数
    • 传统GC信息
    • 花在年轻代和年老代回收上的时间比例
  • 吞吐量优先的应用:一般吞吐量优先的应用都有一个很大的年轻代和一个较小的年老代。原因是,这样可以尽可能回收掉大部分短期对象,减少中期的对象,而年老代尽存放长期存活对象。

 

较小堆引起的碎片问题

因为年老代的并发收集器使用标记、清除算法,所以不会对堆进行压缩。当收集器回 收时,他会把相邻的空间进行合并,这样可以分配给较大的对象。但是,当堆空间较小时,运行一段时间以后,就会出现“碎片”,如果并发收集器找不到足够的空 间,那么并发收集器将会停止,然后使用传统的标记、清除方式进行回收。如果出现“碎片”,可能需要进行如下配置:

 

  • -XX:+UseCMSCompactAtFullCollection:使用并发收集器时,开启对年老代的压缩。
  • -XX:CMSFullGCsBeforeCompaction=0:上面配置开启的情况下,这里设置多少次Full GC后,对年老代进行压缩
  •  

使用CMS垃圾收集器产生promotion failed –> concurrent mode failure

https://blog.csdn.net/21aspnet/article/details/88772421

CMS并行GC是大多数应用的最佳选择,然而, CMS并不是完美的,在使用CMS的过程中会产生2个最让人头痛的问题:

  1. promotion failed
  2. concurrent mode failure

第一个问题promotion failed 是在进行Minor GC时,Survivor Space放不下,对象只能放入老年代,而此时老年代也放不下造成的,多数是由于老年带有足够的空闲空间,但是由于碎片较多,这时如果新生代要转移到老年带的对象比较大,所以,必须尽可能提早触发老年代的CMS回收来避免这个问题(promotion failed时老年代CMS还没有机会进行回收,又放不下转移到老年带的对象,因此会出现下一个问题concurrent mode failure,需要stop-the-wold GC- Serail Old)。

下面是一个promotion failed的一条gc日志:

106.641: [GC 106.641: [ParNew (promotion failed): 14784K->14784K(14784K), 0.0370328 secs]106.678: [CMS106.715: [CMS-concurrent-mark: 0.065/0.103 secs] [Times: user=0.17 sys=0.00, real=0.11 secs]
(concurrent mode failure): 41568K->27787K(49152K), 0.2128504 secs] 52402K->27787K(63936K), [CMS Perm : 2086K->2086K(12288K)], 0.2499776 secs] [Times: user=0.28 sys=0.00, real=0.25 secs]

第二个问题concurrent mode failure 是在执行CMS GC的过程中同时业务线程将对象放入老年代,而此时老年代空间不足,这时CMS还没有机会回收老年带产生的,或者在做Minor GC的时候,新生代救助空间放不下,需要放入老年代,而老年代也放不下而产生的。尽管CMS使用一个叫做分配担保的机制,每次Minor GC之后要保证新生代的空间survivor + eden > 老年带的空闲时间,但是对象分配是不可预测的,总会有写对象分配在老年带是满足不了的。

下面是一个concurrent mode failure的一条gc日志:

0.195: [GC 0.195: [ParNew: 2986K->2986K(8128K), 0.0000083 secs]0.195: [CMS0.212: [CMS-concurrent-preclean: 0.011/0.031 secs] [Times: user=0.03 sys=0.02, real=0.03 secs]
(concurrent mode failure): 56046K->138K(57344K), 0.0271519 secs] 59032K->138K(65472K), [CMS Perm : 2079K->2078K(12288K)], 0.0273119 secs] [Times: user=0.03 sys=0.00, real=0.03 secs]

首先我们经常遇到promotion failed问题,这也确实是个很头痛的问题,一般是进行Minor GC的时候,发现救助空间不够,所以,需要移动一些新生带的对象到老年带,然而,有些时候尽管老年带有足够的空间,但是由于CMS采用标记清除算法,默认并不使用标记整理算法,可能会产生很多碎片,因此,这些碎片无法完成大对象向老年带转移,因此需要进行CMS在老年带的Full GC来合并碎片。

这个问题的直接影响就是它会导致提前进行CMS Full GC, 尽管这个时候CMS的老年带并没有填满,只不过有过多的碎片而已,但是Full GC导致的stop-the-wold是难以接受的

解决这个问题的办法就是可以让CMS在进行一定次数的Full GC(标记清除)的时候进行一次标记整理算法,CMS提供了以下参数来控制:

-XX:UseCMSCompactAtFullCollection -XX:CMSFullGCBeforeCompaction=5

也就是CMS在进行5次Full GC(标记清除)之后进行一次标记整理算法,从而可以控制老年带的碎片在一定的数量以内,甚至可以配置CMS在每次Full GC的时候都进行内存的整理。

另外,有些应用存在比较大的对象朝生熄灭,这些对象在救助空间无法容纳,因此,会提早进入老年带,老年带如果有碎片,也会产生promotion failed, 因此我们应该控制这样的对象在新生代,然后在下次Minor GC的时候就被回收掉,这样避免了过早的进行CMS Full GC操作,下面的一个配置样例就通过增加救助空间的大小来解决这个问题:

-Xmx4000M -Xms4000M -Xmn600M -XXmSize=500M -XX:MaxPermSize=500M -Xss256K -XX:+DisableExplicitGC -XX:SurvivorRatio=1 -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:+CMSParallelRemarkEnabled eCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=0 -XX:+CMSClassUnloadingEnabled -XX:LargePageSizeInBytes=128M -XX:+UseFastAccessorMethods -XX:+UseCMSInitiatingOccupancyOnly -XX:CMSInitiatingOccupancyFraction=80 -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+PrintClassHistogram -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintHeapAtGC -Xloggc:log/gc.log

上面讨论了promotion failed引起的原因以及解决方案,除了promotion failed还有一个情况会引起CMS回收失败,从而退回到Serial Old收集器进行回收,我们在线上尤其要注意的是concurrent mode failure出现的频率,这可以通过-XX:+PrintGCDetails来观察,当出现concurrent mode failure的现象时,就意味着此时JVM将继续采用Stop-The-World的方式来进行Full GC,这种情况下,CMS就没什么意义了,造成concurrent mode failure的原因是当minor GC进行时,旧生代所剩下的空间小于Eden区域+From区域的空间,或者在CMS执行老年带的回收时有业务线程试图将大的对象放入老年带,导致CMS在老年带的回收慢于业务对象对老年带内存的分配。

解决这个问题的通用方法是调低触发CMS GC执行的阀值,CMS GC触发主要由CMSInitiatingOccupancyFraction值决定,默认情况是当旧生代已用空间为68%时,即触发CMS GC,在出现concurrent mode failure的情况下,可考虑调小这个值,提前CMS GC的触发,以保证旧生代有足够的空间。

总结:

1. promotion failed –> concurrent mode failure

Minor GC后, Survivor Space容纳不了剩余对象,将要放入老年带,老年带有碎片或者不能容纳这些对象,就产生了concurrent mode failure, 然后进行stop-the-world的Serial Old收集器。

解决办法:-XX:UseCMSCompactAtFullCollection -XX:CMSFullGCBeforeCompaction=5(CMS一定频率执行标记整理法) 或者 调大新生代或者救助空间

2. concurrent mode failure

CMS是和业务线程并发运行的,在执行CMS的过程中有业务对象需要在老年带直接分配,例如大对象,但是老年代没有足够的空间来分配,所以导致concurrent mode failure, 然后需要进行stop-the-world的Serial Old收集器。

解决办法:+XX:CMSInitiatingOccupancyFraction(调低触发CMS GC执行的阀值,提前触发GC),调大老年带的空间,+XX:CMSMaxAbortablePrecleanTime

总结一句话:使用标记整理清除碎片和提早进行CMS GC操作。

 

 

检查工具

GC日志分析

GCeasy网站、GcViewer(github) 有助于分析GC原因、并提出优化意见

GcViewer:https://www.cnblogs.com/o-andy-o/p/4058271.html  https://blog.csdn.net/u013213157/article/details/74687028

http://cmsblogs.com/?p=3817

https://www.bilibili.com/video/av52674111/?p=31

GcViewer几个关键值:吞吐量(推荐达到90%以上)、FullGC次数、FullGC用时占比、各GC最大/平均pause时间

 

Eclipse Memory Analysis Tools (MAT内存泄漏)

https://cloud.tencent.com/developer/article/1361381

https://www.bilibili.com/video/av52674111/?p=7

官网下载安装后是一个单独的Eclipse程序MAT可以分析heapdump[hprof]文件,分析可疑的问题对象,找到占用最大内存的对象类型,定位到其保存的引用,找到未释放的引用。

MAT按内存占用查找

发现User对象占用异常,右键分析其GCROOTS

 

分析结果,找到大量User对象强引用存在于MemoryController.userList中未被释放

MAT按照对象数量查找

同样可以右键分析

 

Linux Top

排查定位占用CPU/内存异常   的JAVA进程ID和JAVA线程ID

top 找到进程7930占用CPU异常

top 打印进程7930的线程占用情况,进程7930中前四个线程占用cpu较高。


此处线程PID对应jstack的线程dump文件中的nid=0x2037 (10-16进制转化)。可以直接定位线程dump文件中的问题所在。

 

Jstack -l ${PID} (线程dump -l 打印锁信息)

jps/top 查看java程序PID。

打印进程7930的线程dump到txt文件,并下载到本地。SecureCRT作为Linux客户端为例。

查看线程状态,检查使线程阻塞/等待的方法,并找到死锁的对应线程。

可以看到线程处于阻塞状态 at org.apache.lucene.index.IndexWriter.commit方法中,其在等待锁 waiting to lock <0x000000072039ce18> 。其已经拿到的锁locked <0x0000000711ab59c8>。通过期等待可以找到对应的持锁线程,看其停留在哪个方法里,导致不能释放锁。

"Thread-33" prio=10 tid=0x00002aaac8013000 nid=0x3264 waiting for monitor entry [0x00000000437e4000]
   java.lang.Thread.State: BLOCKED (on object monitor)
        at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3525)
        - waiting to lock <0x000000072039ce18> (a java.lang.Object)
        at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3505)
        at com.xiaomi.miliao.mt.fulltextindex.UserIndexUpdater.updatePlUserIndex(UserIndexUpdater.java:229)
        - locked <0x0000000711ab59c8> (a java.lang.Object)
        at com.xiaomi.miliao.mt.fulltextindex.SearcherDelegate.updatePlUserIndex(SearcherDelegate.java:522)
        at 

一般在线程dump文件结尾会有deadlock分析

 

VisualVM (堆dump,大内存对象检查,线程dump+死锁)

可以查看对象的成员变量,和他被哪些外部对象引用。排查未被释放的原因,但是其没有MAT直观,不利于反向推导问题引用。 

线程dump与Jstack相同死锁分析会在最后显示

cpu抽样器:动态实时检查方法/线程 总用时和占用CPU时间

内存抽样器:动态实时检查各类型对象/线程占用内存情况

jconsole(监控内存中各个区使用状况和GC频率,检查Thread死锁

 

posted @ 2018-08-15 22:45  sw008  阅读(623)  评论(0编辑  收藏  举报