故障现象

在生产环境中,发现jpaas 程序在访问时,访问同一个页面出现时快时慢的现象,就是刷新同一个方法,有时 很快返回,有时需要5秒到10秒中。

 

排查过程

检查JVM发现程序的CPU并不高,访问量也不大。排除了 比如 zipkin 的问题之后,问题还是没有解决。

于是我考虑在 查询方法上加一个 时间统计,统计在这个方法的耗时。

于是 我修改了一下BaseController的query 的代码:

 ServletRequestAttributes servletRequestAttributes = (ServletRequestAttributes)RequestContextHolder.getRequestAttributes();
            HttpServletRequest request = servletRequestAttributes.getRequest();
            String url=request.getRequestURI();

            long start=System.currentTimeMillis();
            QueryFilter filter=QueryFilterBuilder.createQueryFilter(queryData);
            handleFilter(filter);
            IPage page= getBaseService().query(filter);
            handlePage(page);
            jsonResult.setPageData(page);

            logger.info("url:" +url +",escape time:" + (System.currentTimeMillis()-start) +"ms");

记录 info级别的日志,记录这个方法执行的总时长。在控制台打印 方法的执行时长,发现 其实这个查询方法每次执行的时长 都是50毫秒左右。

这个说明了问题并不在 微服务应用,问题出在网关上。

 

怎么找网关的问题?

我在执行查询方法的时候,如果访问时间特别长。

我执行了 jstack -l 网关的进程id > 输出到文件

经过分析java 的线程栈

 

 发现这个代码,有锁的迹象,果断注释这个代码,然后上传。

问题解决。

问题出在

public native InetAddress[]
lookupAllHostAddr(String hostname) throws UnknownHostException;

这个方法的作用是
应用本身在 IPv4 环境下,如果尝试使用了 IPv6 会导致一些已知问题。

当调用了 Inet6AddressImpl.lookupAllHostAddr() 方法,因为 Java 与操作系统 libc 库之间存在一个bug,
当特定的竞态条件发生时,将会导致查找 host 地址动作一直无限循环下去。
这种情况发生的频率很低,但是一旦发生将会导致 JVM 死锁问题,进而导致 JVM 中所有线程会被阻塞住。


那个出问题的代码,实际上是可以不需要的,因此可以直接注释那个代码,防止之后的出错。

碰到生产问题,分析问题,学会排除问题,另外JVM的知识还是很重要,在关键的时候能救命。

 

关于这个bug ,这篇分析的比较全面。

https://www.cnblogs.com/ldws/p/11704115.html





 

posted on 2021-04-10 23:14  自由港  阅读(254)  评论(0编辑  收藏  举报