问题:

性能测试过程中,10个用户并发持续运行几分钟后,服务器停止响应。

 

LR的错误来看,有下面几种:

1)       Error -27728: Step download timeout (120 seconds) has expired when downloading non-resource(s)

2)       Error -27791: Server "appsvr01" has shut down the connection prematurely         [MsgId: MERR-27791]

3)       Error -27796: Failed to connect to server "appsvr01:38080": [10061] Connection refused

4)       Error -26372: ContentCheck Rule "stackTrace" in Application "BIOffice" triggered. Text "","stackTrace":"" matched (count=1)        [MsgId: MERR-26372]

但后两种应该是由前面两种错误引起的间接错误。从出错顺序上看,是先出现前面的超时错误,最后整个服务器都停止响应了。

 

定位:

1)  用客户端连接该服务器,没有响应;

2)  Netstat看到服务器端口还在侦听,但telnet该端口被强制断开了,说明WebServer已经不正常了;

3)  从服务器的log看到有OutOfMemory的错误,判断是和内存泄漏有关。

 

重现及分析:

1)  设置-verbose:gc -Xloggc:./gc.log 打印gc日志,重新运行脚本,重现该问题。

gc日志中看到开始运行时,每隔一段时间会进行垃圾回收,不过内存堆栈的使用还是越来越大,最后内存不够用,频繁做Full GC引起服务器停止响应

再分析响应时间的几个波动,和GC有密切的关系。当服务器进行GC时,响应时间就迅速变慢。

 

 

解决:

修改代码,确保资源释放,不出现内存泄漏,问题解决。

 

总结:

1)  内存不足,频繁的Full GC会导致Tomcat服务器没有响应(先是Timeout,后来根本没有响应,telnet该端口也被自动断开,但netstat看到端口还在侦听)

Full GC过程中,对响应时间有很大的影响