keepalive timeout

下午遇到的一个问题。访问一个运行在marathon上服务偶尔会出现NoHttpResponseException,这是个java apache http client的异常。

marathon运行在mesos之上,服务发现是marathon-lb提供的。负载均衡使用的haproxy。

 

用python和curl都不能重现这个问题。

最后找到的问题症结如下:

1)能重现的只有java client。因为默认使用了连接池:PoolingHttpClientConnectionManager 。连接会使用Connection: keep-alive,在一段时间内会重用连接。4.4以后不会再每次复用连接的时候去检查连接isOpen()。只是在一定时间之后,默认5s。

2)tomcat server默认也是开启keep-alive的,而且默认的timeout等于connectionTimeout。20s(或者60s)配置在这里

3)中间的haproxy默认的keep-alive时间是1s

客户端发送一个请求,sleep 1s,立刻发送第二个请求,就会出现NoHttpResponse错误。sleep的时间太短或者太长,就不能重现。

因为client idel 1s的时候,haproxy就把连接断掉了。client再复用这个连接就出现错误了,server压根就不会收到这个请求。google发现,处理这个问题的通常做法就是retry一下。

果然发现http client builder可以设置一个retry handler,使用这个默认的,DefaultHttpRequestRetryHandler ,会对除了几个特定的异常外的IOException进行尝试,默认也只有幂等的http methods。详细的方法可以看文档。

解决的方法有几种,

1)在client端retry

2)haproxy的keep alive调长,5s以上。5s客户端就会自动检查了

 

但第二种,要看看会对haproxy造成多大的负担。

另外,ha除了http-keep-alive以外,还有几种模式,例如,http-server-close/forceclose/httpclose/http-tunel,是一个级别的,需要再读读文档看一下。

posted on 2016-12-07 01:00  hankh  阅读(4670)  评论(0编辑  收藏  举报