记一次上线就跪的故障排查案例

这个是我很早以前解决的一个案例，其现象是系统每次上线后，20多台机器，总有两三机器，出现假死的情况。如何判断出系统假死？借助的是一个第三方公司运维监控平台；这种情况，前同事称之为的“假死”，需要重新启动系统才能恢复。因为我是新来乍到，觉得这种情况不正常，而且对研发（在这边是研发上线）来说，是一个非常大的上线负担；于是我决定解决一下这个“百年难题”。

我亲自上线，果然很快就碰到了假死的机器。我看到机器的CPU，内存和磁盘IO都很正常，根本不像出问题的机器。直觉告诉我，先用jstack打印个堆栈看看当前tomcat在做什么吧，于是叫上支持上线的运维小哥给打印了一个，然后手工重新部署了一下有问题的机器（记住出问题一定要先止损）。

拿到手的堆栈，第一眼就发现了一些问题。前几行如下：

可以看到tomcat的线程号已经到了215，而tomcat默认最大处理数为200，已经到了饱和状态。后续的请求就只能排队了。

堆栈中，有很多waiting to lock <0x0000000784588098>的线程，从执行堆栈看，应该是CXF要调用.NET的webservice。调用的业务方法各不相同。

继续往下看，在堆栈的后半部分（注意行数），打印了一个死锁的提示。

我们进一步分析,为了方便大家阅读，我对上面的死锁线程画了一个依赖图，可以看出，线程25和线程48形成了死锁。这4个线程的等待关系如下：

继续分析，什么导致的死锁；

线程25的堆栈如下：

线程48的堆栈：

线程持有锁和堆栈中提示的锁信息正好照应

从上面堆栈可以分析出,gson和第三方的agent发生了循环死锁。至此问题的解决方法已经有了，要不去掉gson，要不就去掉那个第三方agent。

除了上面的解决方法外，我们还在系统中增加了一个容器探活的接口（这个功能从监控来看，非常有意义）。即在controller中写一个方法，直接返回一个字符串。这样在外部定时的去调用接口（也可以手工使用curl来探测），就知道这个服务是否还存活，也不用第三方监控系统来判断了；

经验教训:

1、系统需从容器级别支持外部探测，以证明自身健康

2、不要轻易引入外部agent

知识点：

1、tomcat（BIO)默认最大线程数200

关注我的微信公众号，获取最新故障案例分析；

posted @ 2019-04-30 12:22 猿界汪汪队阅读(1924) 评论(4) 编辑收藏举报

刷新页面返回顶部