Hystrix
一、分布式系统面临的问题
复杂分布式体系结构中的应用程序,有数10个依赖关系,每个依赖关系在某些时候将不可避免地失败。
- 服务雪崩
- 多个微服务之间调用的时候,假设微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的“扇出”。如果扇出的链路上某个微服务的调用响应时间过长或者不可用,对微服务A的调用就会占用越来越多的系统资源,进而引起系统崩溃,所谓的“雪崩效应”。
- 对于高流量的应用来说,单一的后端依赖可能会导致所有服务器上的所有资源都在几秒钟内饱和。比失败更糟糕的是,这些应用程序还可能导致服务之间的延迟增加,备份队列,线程和其他系统资源紧张,导致整个系统发生更多的级联故障。这些都表示需要对故障和延迟进行隔离和管理,以便单个依赖关系的失败,不能取消整个应用程序或系统。
- 所以,通常当你发现一个模块下的某个实例失败后,这时候这个模块依然还会接受流量,然后这个有问题的模块还调用了其他的模块,这样就会发生级联故障,或者叫雪崩。
二、Hystrix熔断器介绍
Hystrix是一个用于处理分布式系统的延迟和容错的开源库,在分布式系统里,许多依赖不可避免的会调用失败,比如超时、异常等,Hystrix能够保证在一个依赖出问题的情况下,不会导致整体服务失败,避免级联故障,以提高分布式系统的弹性。
“断路器”本身是一种开关装置,当某个服务单元发生故障后,通过断路器的故障监控(类似熔断保险丝),向调用方法返回一个符合预期的、可处理的备选响应(FallBack),而不是长时间的等待或者抛出调用方无法处理的异常,这样就保证了服务调用方的线程不会被长时间、不必要地占用,从而避免了故障在分布式系统中的蔓延,乃至雪崩。
三、Hystrix作用
-
服务降级
服务器忙,请稍后再试,不让客户端等待并立刻返回一个友好提示,fallback。
哪些情况会发出降级
- 程序运行异常
- 超时
- 服务熔断触发服务降级
- 线程池 / 信号量也会导致服务降级
-
服务熔断
类比保险丝达到最大服务访问后,直接拒绝访问,拉闸限电,然后调用服务降级的方法并返回友好提示
服务的降级 → 进而熔断 → 恢复调用链路
-
服务限流
秒杀高并发等操作,严谨一窝蜂的过来拥挤,大家排队,一秒钟N个,有序进行。
四、服务降级
-
降级配置
@HystrixCommand
-
8001先从自身找问题
设置自身调用超时时间的峰值,峰值内可以正常运行,超过了需要有兜底的方法处理,做服务降级fallback
-
8001 fallback
HystrixCommand报异常后如何处理?
一旦调用服务方法失败并抛出了错误信息后,会自动调用@HystrixCommand标注灏的fallbackMethod调用类中的指定方法。主启动类激活 → @EnableCircuitBreaker
-
80fallback
80订单微服务,也可以更好的保护自己,自己也依样画葫芦进行客户端降级保护
-
- pom.xml
-
<!--hystrix-->
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
</dependency>
-
- yaml
点击查看代码
server:
port: 80
eureka:
client:
register-with-eureka: false
fetch-registry: true
service-url:
defaultZone: http://eureka7001.com:7001/eureka,http://eureka7002.com:7002/eureka
feign:
hystrix:
enabled: true
-
- 主启动 → @EnableHystrix
-
-
业务类
-
-
存在的问题
→ 每个业务方法对应一个兜底的方法,代码膨胀。
→ 统一和自定义的分开。 -
解决方法
@DefaultProperties(defaultFallback = "")
五、服务熔断
-
断路器
一句话就是家里的保险丝
-
熔断类型
→ 熔断打开
请求不再调用当前服务,内部设置一般为**MTTR(平均故障处理时间)**,当打开**长达到所设时钟**则进入**半熔断状态**
→ 熔断关闭
熔断关闭后不会对服务进行熔断
→ 熔断半开
部分请求根据规则调用当前服务,如果请求成功且符合规则则认为当前服务恢复正常,关闭熔断
-
断路器在什么情况下开始起作用
//=========服务熔断
@HystrixCommand(fallback = "paymentCircuitBreaker_fallback",commandProperties = {
@HystrixProperty(name = "circuitBreaker.enabled",value = "true"),//开启断路器
@HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"),//请求次数超过了峰值,熔断器将会从关闭变为开启
@HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),//时间范围
@HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60")//失败率达到多少后跳闸
})
public String paymentCircuitBreaker(@PathVariable("id") Integer id)
涉及到断路器的三个重要参数:请求总数阙值、快照时间窗、错误百分比阙值
1. 请求总数阙值(requestVolumeThreshold):
在快照时间窗内,必须满足请求总数阙值才有资格熔断。默认为20,意味着在10秒内,如果该hystrix命令的调用次数不足20次,即使所有的请求都超过或其他原因失败,断路器都不会打开。
2. 快照时间窗(sleepWindowInMilliseconds):
断路器确定是否打开需要统计一些请求和错误数据,而统计的时间范围就是快照时间窗,默认为最近的10秒。
3. 错误百分比阙值(errorThresholdPercentage):
当请求总数在快照时间窗内超过了阙值,比如发生了30次调用,如果在这30次调用中,有15次发生了超时异常,也就是超过了50%的错误百分比,在默认设定50%阙值情况下,这时候就会将断路器打开。
-
断路器开启或关闭的条件
→ 当满足一定的阈值的时候(默认10秒钟超过20个请求次数)
→ 当失败率达到一定的时候(默认10秒内超过50%的请求次数)
→ 到达以上阈值,断路器将会开启
→ 当开启的时候,所有请求都不会进行转发
→ 一段时间之后(默认5秒),这个时候断路器是半开状态,会让其他一个请求进行转发, 如果成功,断路器会关闭,若失败,继续开启,重复4和5
-
断路器打开之后
-
再有请求调用的时候,将不会调用主逻辑,而是直接调用降级fallback。通过断路器,实现了自动地发现错误并降级逻辑切换为主逻辑,减少响应延迟的效果。
-
原来的主逻辑要如何恢复呢?
对于这一问题,hystrix也为我们实现了自动恢复功能。
当断路器打开,对主逻辑进行熔断之后,hystrix会启动一个休眠时间窗,在这个时间窗内,降级逻辑是临时的成为主逻辑;
当休眠时间窗到期,断路器将进入半开状态,释放一次请求到原来的主逻辑上,如果此次请求正常返回,那么断路器将继续闭合,主逻辑恢复,如果这次请求依然有问题,断路器继续进入打开状态,休眠时间窗重新计时
-
-
ALI配置(扩展)
- 配置
//===============================All
@HystrixCommand(fallback = "str_fallbackMethod",
groupKey = "strGroupCommand",
commandKey = "strCommand",
threadPoolKey = "strThreadPool",
commandProperties = {
// 设置隔离策略,THREAD表示线程池SEMAPHORE:信号池隔离
@HystrixProperty(name = "execution.isolation.strategy",value = "THREAD"),
// 当隔离策略选择信号池隔离的时候,用来设置信号池的大小(最大并发数)
@HystrixProperty(name = "execution.isolation.semaphore.maxConcurrentRequests",value = "10"),
// 配置命令执行的超时时间
@HystrixProperty(name = "execution.isolation.thread.timeoutinMilliseconds",value = "10"),
// 是否启用超时时间
@HystrixProperty(name = "execution.timeout.enabled",value = "true"),
// 执行超时的时候是否中断
@HystrixProperty(name = "execution.isolation.thread.interruptOnTimeout",value = "true"),
// 执行被取消的时候是否中断
@HystrixProperty(name = "execution.isolation.thread.interruptOnCancel",value = "true"),
// 允许回调方法执行的最大并发数
@HystrixProperty(name = "fallback.isolation.semaphore.maxConcurrentReqeusts",value = "10"),
// 服务降级是否启用,是否执行回调函数
@HystrixProperty(name = "fallback.enabled",value = "true"),
// 是否启用断路器
@HystrixProperty(name = "circuitBreaker.enabled",value = "true"),
// 该属性用来设置在滚动时间窗中,断路器熔断的最小请求数,例如,默认该值为20的时候,
// 如果滚动时间窗(默认10秒)内仅收到了19个请求,即使这19个请求都失败了,断路器也不会打开
@HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "20"),
// 该属性用来设置在滚动时间窗中,表示在滚动时间窗中,在请求数量超过
// circuitBreaker.requestVolumeThreshold的情况下,如果错误请求数的百分比超过50,
// 就把断路器设置为“打开”状态,否则就设置为“关闭”状态。
// 该属性用来设置当断路器打开之后的休眠时间窗,休眠时间窗结束之后,
// 会将断路器置为“半开“状态,尝试熔断的请求命令,如果依然失败就将断路器继续设置为”打开“状态,
// 如果成功就设置为”关闭“状态
@HystrixProperty(name = "circuitBreaker.sleepWindowinMilliseconds",value = "5000"),
// 断路器强制打开
@HystrixProperty(name = "circuitBreaker.forceOpen",value = "false"),
// 断路器强制关闭
@HystrixProperty(name = "circuitBreaker.forceClosed",value = "false"),
}
)