故障现象
在生产环境中,发现jpaas 程序在访问时,访问同一个页面出现时快时慢的现象,就是刷新同一个方法,有时 很快返回,有时需要5秒到10秒中。
排查过程
检查JVM发现程序的CPU并不高,访问量也不大。排除了 比如 zipkin 的问题之后,问题还是没有解决。
于是我考虑在 查询方法上加一个 时间统计,统计在这个方法的耗时。
于是 我修改了一下BaseController的query 的代码:
ServletRequestAttributes servletRequestAttributes = (ServletRequestAttributes)RequestContextHolder.getRequestAttributes(); HttpServletRequest request = servletRequestAttributes.getRequest(); String url=request.getRequestURI(); long start=System.currentTimeMillis(); QueryFilter filter=QueryFilterBuilder.createQueryFilter(queryData); handleFilter(filter); IPage page= getBaseService().query(filter); handlePage(page); jsonResult.setPageData(page); logger.info("url:" +url +",escape time:" + (System.currentTimeMillis()-start) +"ms");
记录 info级别的日志,记录这个方法执行的总时长。在控制台打印 方法的执行时长,发现 其实这个查询方法每次执行的时长 都是50毫秒左右。
这个说明了问题并不在 微服务应用,问题出在网关上。
怎么找网关的问题?
我在执行查询方法的时候,如果访问时间特别长。
我执行了 jstack -l 网关的进程id > 输出到文件
经过分析java 的线程栈
发现这个代码,有锁的迹象,果断注释这个代码,然后上传。
问题解决。
问题出在
public native InetAddress[]
lookupAllHostAddr(String hostname) throws UnknownHostException;
这个方法的作用是
应用本身在 IPv4 环境下,如果尝试使用了 IPv6 会导致一些已知问题。
当调用了 Inet6AddressImpl.lookupAllHostAddr() 方法,因为 Java 与操作系统 libc 库之间存在一个bug,
当特定的竞态条件发生时,将会导致查找 host 地址动作一直无限循环下去。
这种情况发生的频率很低,但是一旦发生将会导致 JVM 死锁问题,进而导致 JVM 中所有线程会被阻塞住。
那个出问题的代码,实际上是可以不需要的,因此可以直接注释那个代码,防止之后的出错。
碰到生产问题,分析问题,学会排除问题,另外JVM的知识还是很重要,在关键的时候能救命。
关于这个bug ,这篇分析的比较全面。
https://www.cnblogs.com/ldws/p/11704115.html