FeignClient spi 调用 短路异常 & 线程池配置
FeignClient spi 调用 短路异常 & 线程池配置
默认配置见:
HystrixThreadPoolProperties
线程池对象:com.netflix.hystrix.HystrixThreadPool
1. 问题
最近项目中使用FeignClient
调用公共消息服务的spi时候,突然出现了一下错误:
MessageSpi.sendMessage could not be queued for execution and fallback disabled.
然后很快出现了短路错误:
MessageSpi.sendMessage short-circuited and fallback disabled.
2. 依赖接口性能解决
反馈给接口提供方后,他们说是调用方配置的线程池满了,而为什么满,他们怀疑是自己的接口性能慢导致。所以他们去优化接口的性能即可。我们无需关注线程池满的原因。
不过问题很快又找到我了。
接下来的另一个项目是一个类似请求转发&返回值封装的中间层服务,主要请求都是通过SPI
的方式调用其他服务。结果在压测时一下子就报错误了,和上面提到的错误是一样的。
这个时候,如果还是找接口性能就不那么靠谱了。因为即使接口性能在100ms的情况下,支持100qps的并发还是很easy。
3. 原因
后面通过本地断点,发现FeignClient
使用的线程池是com.netflix.hystrix.HystrixThreadPool
,然后内部使用的还是ThreadPoolExecutor
,他默认的线程池数量是10(可以从HystrixThreadPoolProperties
这里看到),队列-1,表示同步队列。
而组件里配置的默认线程池大小是30,队列的大小也是30.
假设接口性能在 50ms,那么这个配置,最大的qps 应该是 30 * (1000/50),也就是 600qps。
表面上看这个配置是够用的,但是依赖接口的性能,因为如果是100ms ,那么就瞬间降到300qps。
而按照默认的配置,这个值是200qps,要求低一点就是100qps。
而且可能由于瞬时的流量,导致响应慢后队列就很可能慢,然后导致了以上的错误。
4. 根据你的业务场景来配置
2中的问题不一样,他是一个流量转发的任务,在本地耗时的时间短,基本都是spi耗时,所以它的线程池的配置应该是和该服务容器线程差不多才行。
所以我们线程池的配置如下:
hystrix:
threadpool:
default:
coreSize: 200 #并发执行的最大线程数,默认10
maxinumPoolSize: 300 # 最大线程数
maxQueueSize: 100 #BlockingQueue的最大队列数,默认值-1
queueSizeRejectionThreshold: 80 #即使maxQueueSize没有达到,达到queueSizeRejectionThreshold该值后,请求也会被拒绝,默认值5
另外,default是 默认的配置,从com.netflix.hystrix.HystrixThreadPool.Factory#threadPools
这里我们可以看到,线程池的配置还可以按照不同的FeignClient
配置不同的线程池,依据你自己的场景去配置就好
hystrix:
threadpool:
message-server: # 对应 message-sever 对应的 FeignClient SPI
coreSize: 200
maxinumPoolSize: 300 # 最大线程数
maxQueueSize: 100 #BlockingQueue的最大队列数,默认值-1
queueSizeRejectionThreshold: 80