九、熔断降级
一、概述
除了流量控制以外,对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。一个服务常常会调用别的模块,可能是另外的一个远程服务、数据库,或者第三方 API 等。例如,支付的时候,可能需要远程调用银联提供的 API;查询某个商品的价格,可能需要进行数据库查询。然而,这个被依赖服务的稳定性是不能保证的。如果依赖的服务出现了不稳定的情况,请求的响应时间变长,那么调用服务的方法的响应时间也会变长,线程会产生堆积,最终可能耗尽业务自身的线程池,服务本身也变得不可用。
现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务
调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。
二、熔断策略
Sentinel在1.8.0版本对熔断降级做了大的调整,可以定义任意时长的熔断时间,引入了半开启恢复支持。下面梳理下相关特性。
熔断状态有三种状态,非别为OPEN、HALF_OPEN、CLOSED
状态 | 说明 |
---|---|
OPEN | 表示熔断开启,拒绝所有请求 |
HALF_OPEN | 探测恢复状态,如果接下来的一个请求顺利通过则表示结束熔断,否则继续熔断 |
CLOSE | 表示熔断关闭,请求顺利通过 |
Sentinel 提供以下几种熔断策略:
-
慢调用比例 (SLOW_REQUEST_RATIO):选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。
-
异常比例 (ERROR_RATIO):当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。
-
异常数 (ERROR_COUNT):当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。
注意异常降级仅针对业务异常
,对 Sentinel 限流降级本身的异常(BlockException)不生效。
慢调用比例演示
首先在Sentinel中设置熔断规则:
在统计时长1000ms以内,请求数大于最小请求数5,响应时间大于最大RT200ms的比率大于比例阈值0.1,就进入熔断状态。
资源定义如下:
@RequestMapping("/index")
@SentinelResource("HelloConsumer-index")
public String index() {
try {
TimeUnit.SECONDS.sleep(3);
} catch (InterruptedException e) {
throw new RuntimeException(e);
}
return "index";
}
首先用浏览器访问http://localhost:7001/consumer/index,发现可以正常返回。虽然响应时间大于200ms,但是请求数只有一个。
接下来用jmeter测试:
一直持续每秒发送10个请求。再用浏览器访问http://localhost:7001/consumer/index,发现被熔断。关闭jmeter后在访问发现还是被熔断。等5秒后访问发现成功访问。
异常比例
资源定义如下:
@RequestMapping("/index")
@SentinelResource("HelloConsumer-index")
public String index() {
count.addAndGet(1);
if (count.get() % 2 == 0) {
int i = 10 / 0;
}
return "index";
}
在Sentinel中配置熔断规则:
在统计时长1000ms内,请求数大于5并且发生异常的请求比例大于0.1则发生熔断,熔断时长为5秒。
jmeter配置和上面一样,启动jmeter后,连续访问两次http://localhost:7001/consumer/index,发现被熔断。停止jmeter后,连续访问两次http://localhost:7001/consumer/index,还是被熔断。等待5秒后,连续访问两次http://localhost:7001/consumer/index,发现访问成功。
异常数
资源定义如下:
@RequestMapping("/index")
@SentinelResource("HelloConsumer-index")
public String index() {
count.addAndGet(1);
if (count.get() % 2 == 0) {
int i = 10 / 0;
}
return "index";
}
在Sentinel中配置熔断规则:
在统计时长1000ms内,请求数大于5并且发生异常的请求数大于1则发生熔断,熔断时长为5秒。演示步骤和异常比例
一致。