滥用线程池导致OOM
定位代码
问题原因分析
这点代码是核心查询方法的一部分,负责控制查询用户信息的缓存处理,当有线程执行进行缓存处理时防止同一时间进行DB查询进行分布式锁lock,保证同一时间只有一个线程进行数据库查询,其他未获取锁的线程进行等待,异步获取用户缓存信息,起到防止缓存穿透的目的。
但是这里没有统一使用线程池进行异步线程的调度和使用,导致线程滥用无法收到统一管理和调度,产生OOM隐患。
问题原因总结
-
1、严格参照编码规范统一使用线程池来进行线程调度和使用,避免对线程使用滥用导致失控产生OOM问题
-
2、由于线上都是虚拟机,OOM后可能也会导致虚拟机无法访问,J-ONE无法操作,Logbook日志无法查看,只能找SA进行宿主机重启恢复
-
3、线上虚拟机配置一般为4U 8G,建议配置可以双实例,单实例JVM 2G,不建议4G是因为还有系统应用占用内存,一般2G够用了
-
4、高版本JDK可以根据业务情况观察GC,调整GC回收器或一些配置参数来进行优化
-
5、线程池根据虚拟机4U单实例或双实例进行配置core,max,queue数量
-
6、吃配置的只能加机器或者关注机器性能,关注机器性能指标,不行就更换