Hystrix

服务雪崩

1、扇出:多个微服务之间调用

2、雪崩

(1)如果扇出的链路上,某个微服务的调用响应时间过长或者不可用,对某个微服务的调用就会占用越来越多的系统资源,进而引起系统崩溃

(2)对于高流量的应用,单一的后端依赖可能会导致所有服务器上的所有资源都在几秒钟内饱和,还可能导致服务之间的延迟增加,系统资源紧张,导致整个系统发生更多的级联故障

(3)需要对故障和延迟进行隔离和管理,单个依赖关系的失败,不能取消整个应用程序或系统

(4)通常当一个模块下的某个实例失败后,此时这个模块仍会接收流量,并调用其他模块,就会发生级联故障 / 雪崩

 

Hystrix

1、处理分布式系统的延迟和容错的开源库

2、在分布式系统里,许多依赖不可避免的会调用失败,比如:超时、异常等,Hystrix 能够保证在一个依赖出问题的情况下,不会导致整体服务失败,避免级联故障,以提高分布式系统的弹性

3、断路器

(1)当某个服务单元发生故障之后,通过断路器的故障监控(类似熔断保险丝),向调用方返回一个符合预期的、可处理的备选响应(FallBack),而不是长时间的等待,或者抛出调用方无法处理的异常

(2)保证服务调用方的线程不会被长时间、不必要地占用,从而避免故障在分布式系统中的蔓延,乃至雪崩

4、作用

(1)服务降级

(2)服务熔断

(3)实时监控

(4)服务限流

(5)服务隔离

 

依赖

<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
</dependency>

 

高并发故障

1、服务提供者

(1)某一接口服务接收大量并发,挤占 Tomcat 线程池所有工作线程

(2)同一层次的接口服务的处理能力下降

2、服务消费者

(1)长时间等待

(2)超时报错

3、解决

(1)服务降级:服务提供方、服务消费方超时 / 宕机

(2)服务熔断

(3)服务限流

 

服务降级

1、服务器繁忙,不让客户端等待,并返回一个提示(FallBack)

2、触发情况

(1)程序运行异常

(2)等待超时

(3)服务熔断

(4)线程池 / 信号量已满

3、一般应用在服务消费者

4、服务提供者(示例)

(1)Service 实现类,省略 Service 接口、DAO 层

@Service
public class PaymentHystrixServiceImpl implements PaymentHystrixService {

    //fallbackMethod:超时或异常时,调用类中指定方法
    @HystrixCommand(fallbackMethod = "paymentInfoHandler",commandProperties = {
        //设置超时时间,单位毫秒,默认1000,即1秒
        @HystrixProperty(name="execution.isolation.thread.timeoutInMilliseconds",value="3000")
    })
    public String paymentInfo(Integer id) {
        //调用服务时,可能超时或异常
        return "返回正常查询结果";
    }

    //Hystrix使用独立线程池处理异常
    public String paymentInfoHandler(Integer id){
        return "调用接口超时或异常"+ "\t当前线程池名字:" + Thread.currentThread().getName();
    }
}

(2)Spring Boot 启动类开启熔断器

@EnableHystrix

5、服务消费者(示例)

(1)OpenFeign 集成 Hystrix,在 yaml 配置文件中开启

feign:
  hystrix:
    enabled: true

(2)Spring Boot 启动类开启熔断器

@EnableHystrix

(3)Controller,省略 @FeignClient 接口

@RestController
public class PaymentHystirxController {
    @Resource
    private PaymentHystrixService paymentHystrixService;

    @GetMapping("/consumer/payment/hystrix/{id}")
    //fallbackMethod:超时或异常时,调用类中指定方法
    @HystrixCommand(fallbackMethod = "paymentFallbackMethod",commandProperties = {
        //设置超时时间,单位毫秒,默认1000,即1秒
        @HystrixProperty(name="execution.isolation.thread.timeoutInMilliseconds",value="1500")
    })
    public String paymentInfo(@PathVariable("id") Integer id) {
        //调用服务时,可能超时或异常
        String result = paymentHystrixService.paymentInfo(id);
        return result;
    }

    public String paymentFallbackMethod(@PathVariable("id") Integer id) {
        return "调用接口超时或异常"+ "\t当前线程池名称:" + Thread.currentThread().getName();
    }
}

6、缺陷

(1)耦合度高,业务方法、Fallback 方法在同一个类

(2)代码膨胀,业务方法、Fallback 方法一一对应

7、全局服务降级

(1)除个别业务需要单独 Fallback 方法,其它业务通过 @DefaultProperties(defaultFallback = "")  跳转到统一处理结果页面

(2)区分全局、自定义的服务降级方法,避免代码膨胀,合理减少代码量

(3)服务消费者 Controller,省略 @FeignClient 接口(示例)

@RestController
//指定全局Fallback方法
@DefaultProperties(defaultFallback = "paymentGlobalFallbackMethod")
public class PaymentHystirxController {
    @Resource
    private PaymentHystrixService paymentHystrixService;

    @GetMapping("/consumer/payment/hystrix/{id}")
    //不使用fallbackMethod指定方法
    @HystrixCommand
    public String paymentInfo(@PathVariable("id") Integer id) {
        //调用服务时,可能超时或异常
        String result = paymentHystrixService.paymentInfo(id);
        return result;
    }

    public String paymentGlobalFallbackMethod(@PathVariable("id") Integer id) {
        return "调用接口超时或异常"+ "\t当前线程池名字:" + Thread.currentThread().getName();
    }
}

8、通配服务降级(示例)

(1)服务消费者可能遇到的异常:运行异常、超时等待、服务提供者宕机

(2)OpenFeign 客户端定义接口,添加服务降级实现类,将业务、Fallback 解耦

(3)@FeignClient 接口

@Component
//fallback属性指定服务降级实现类,接口方法与实现类的Fallback方法一一对应
@FeignClient(value = "CLOUD-PAYMENT-HYSTRIX-SERVICE", fallback = PaymentFallbackService.class)
public interface PaymentFeignService {

    @GetMapping(value = "/payment/get/{id}")
    public String paymentInfo(Integer id)
}

(4)服务降级实现类

@Component
public class PaymentFallbackService implements PaymentFeignClientService {
    @Override
    public String PaymentInfo(Integer id) {
        return "服务调用失败,提示来自:cloud-consumer-feign-order80";
    }
}

(5)yaml 配置文件中,OpenFeign 开启 Hystrix

feign:
  hystrix:
    enabled: true

 

服务熔断

1、达到最大服务访问后,直接拒绝访问,然后调用服务降级的方法,并返回友好提示

2、非熔断期间,多次触发服务降级 -> 服务熔断;服务熔断打开状态,休眠期间内 -> 服务降级

(1)服务熔断是应对系统服务雪崩的一种特殊降级措施,系统发生异常 / 延迟 / 流量太大,都会触发该服务的服务熔断措施,链路熔断,返回兜底方法,这是对局部的一种保险措施

(2)服务降级则是更加宽泛的概念,主要是对系统整体资源的合理分配以应对压力,区分核心服务和非核心服务,对某个服务的访问延迟时间、异常等情况做出预估并给出兜底方法,这是一种全局性的考量,对系统整体负荷进行管理

3、熔断机制是应对雪崩效应的一种微服务链路保护机制

(1)当扇出链路的某个微服务出错不可用或者响应时间太长时,会进行服务的降级

(2)进而熔断该节点微服务的调用,快速返回错误的响应信息

(3)当检测到该节点微服务调用响应正常后,恢复调用链路

4、在 Spring Cloud 框架中,熔断机制通过 Hystrix 实现

(1)Hystrix 会监控微服务间调用的状况,当失败的调用到一定阈值,缺省是 5 秒内 20 次调用失败,就会启动熔断机制

(2)熔断机制的注解:@HystrixCommand

5、服务提供者(示例)

(1)Service 实现类

@Service
public class PaymentHystrixServiceImpl implements PaymentHystrixService {

    //fallbackMethod:指定Fallback方法
    @HystrixCommand(fallbackMethod = "paymentCircuitBreakerFallback",commandProperties = {
        //是否开启断路器,默认为true
        @HystrixProperty(name = "circuitBreaker.enabled",value = "true"),
        //滚动时间窗,断路器判断健康度时,需要收集信息的持续时间,默认10000(毫秒)
        @HystrixProperty(name = "metrics.rollingStats.timeinMilliseconds", value = "15000"),
        //触发断路的请求阈值,默认为20
        //快照窗口期内,若超过此值,则判断errorThresholdPercentage
        @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"), 
        //休眠窗口期,默认值为5000(毫秒)
        //如果发生熔断,在休眠窗口期内,断路器为熔断打开状态
        @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),
        //触发断路的请求百分比阈值,默认50
        //快照窗口期内,如果发生断路的请求数超过requestVolumeThreshold,请求失败率超过errorThresholdPercentage,则会熔断
        @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"),
    })
    //多次降级触发熔断后,即使运行无异常 / 不超时 / 调用不宕机,也会进入Fallback方法
    public String paymentInfo(Integer id) {
        return "返回正常查询结果";
    }

    //窗口期内,都是熔断打开状态
    public String paymentInfoHandler(Integer id){
        return "调用接口超时或异常"+ "\t当前线程池名字:" + Thread.currentThread().getName();
    }
}

6、熔断状态

(1)熔断关闭状态(Closed):部分请求根据规则调用当前服务,如果请求成功且符合规则,则认为当前服务恢复正常,关闭熔断;当服务访问正常时,熔断器处于关闭状态,服务调用方可以正常地对服务进行调用

(2)熔断开启状态(Open):默认情况下,在固定时间内(默认 5 秒),接口调用出错数达到一个阈值(默认 20),且出错比率达到一个阈值(默认 50%),熔断器会进入熔断开启状态。进入熔断状态后,后续对该服务的调用都会被切断,熔断器会执行本地降级(FallBack)方法

(3)半熔断状态(Half-Open):请求不再进行调用当前服务,内部设置时钟一般为 MTTR(平均故障处理时间),当打开时长达到所设时钟,则进入半熔断状态。在半熔断状态下,熔断器会尝试恢复服务调用方对服务的调用,允许部分请求调用该服务,并监控其调用成功率。如果成功率达到预期,则说明服务已恢复正常,熔断器进入关闭状态;如果成功率仍旧很低,则重新进入熔断开启状态

7、重要参数

(1)滚动时间窗:断路器确定是否打开需要统计一些请求和错误数据,而统计的时间范围就是快照时间窗,默认为最近 10 秒

(2)请求总数阀值:在快照时间窗内,必须满足请求总数阀值才有资格熔断,默认为 20,意味着在 10 秒内,如果该 Hystrix 命令的调用次数不足 20 次,即使所有的请求都超时或其他原因失败,断路器都不会打开

(3)错误百分比阀值:当请求总数在快照时间窗内超过阈值,如:发生 30 次调用,在 30 次调用中,有 15 次发生超时异常,即超过 50% 错误百分比,在默认设定 50% 阀值情况下,此时打开断路器

(4)休眠时间窗:当断路器打开,休眠时间窗之内,断路器保持打开状态,休眠时间窗之后,断路器为半开状态,尝试熔断的请求命令,如果失败,断路器继续为打开状态;如果成功,断路器为关闭状态

8、熔断打开

(1)有请求调用时,将不会调用主逻辑,而是直接调用降级 Fallback

(2)通过断路器,实现自动发现错误,并将降级逻辑切换为主逻辑,减少响应延迟的效果

(3)当断路器打开,对主逻辑进行熔断之后,Hystrix 启动一个休眠时间窗,在这个时间窗内,降级逻辑是临时地成为主逻辑

(4)当休眠时间窗到期,断路器将进入半开状态,释放一次请求到原来的主逻辑上

(5)如果此次请求正常返回,那么断路器将关闭,主逻辑恢复

(6)如果这次请求依然有问题,断路器继续进入打开状态,休眠时间窗重新计时

9、配置(示例)

@HystrixCommand(fallbackMethod = "str_fallbackMethod",
                groupKey = "strGroupCommand",
                commandKey = "strCommand",
                threadPoolKey = "strThreadPool",
                commandProperties = {
                    // 设置隔离策略,THREAD 表示线程池 SEMAPHORE:信号池隔离
                    @HystrixProperty(name = "execution.isolation.strategy", value = "THREAD"),
                    // 当隔离策略选择信号池隔离的时候,用来设置信号池的大小(最大并发数)
                    @HystrixProperty(name = "execution.isolation.semaphore.maxConcurrentRequests", value = "10"),
                    // 配置命令执行的超时时间
                    @HystrixProperty(name = "execution.isolation.thread.timeoutinMilliseconds", value = "10"),
                    // 是否启用超时时间
                    @HystrixProperty(name = "execution.timeout.enabled", value = "true"),
                    // 执行超时的时候是否中断
                    @HystrixProperty(name = "execution.isolation.thread.interruptOnTimeout", value = "true"),
                    // 执行被取消的时候是否中断
                    @HystrixProperty(name = "execution.isolation.thread.interruptOnCancel", value = "true"),
                    // 允许回调方法执行的最大并发数
                    @HystrixProperty(name = "fallback.isolation.semaphore.maxConcurrentRequests", value = "10"),
                    // 服务降级是否启用,是否执行回调函数
                    @HystrixProperty(name = "fallback.enabled", value = "true"),
                    // 是否启用断路器
                    @HystrixProperty(name = "circuitBreaker.enabled", value = "true"),
                    // 该属性用来设置在滚动时间窗中,断路器熔断的最小请求数。例如,默认该值为 20 的时候,
                    // 如果滚动时间窗(默认10秒)内仅收到了19个请求, 即使这19个请求都失败了,断路器也不会打开。
                    @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold", value = "20"),
                    // 该属性用来设置在滚动时间窗中,表示在滚动时间窗中,在请求数量超过
                    // circuitBreaker.requestVolumeThreshold 的情况下,如果错误请求数的百分比超过50,
                    // 就把断路器设置为 "打开" 状态,否则就设置为 "关闭" 状态。
                    @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage", value = "50"),
                    // 该属性用来设置当断路器打开之后的休眠时间窗。 休眠时间窗结束之后,
                    // 会将断路器置为 "半开" 状态,尝试熔断的请求命令,如果依然失败就将断路器继续设置为 "打开" 状态,
                    // 如果成功就设置为 "关闭" 状态。
                    @HystrixProperty(name = "circuitBreaker.sleepWindowinMilliseconds", value = "5000"),
                    // 断路器强制打开
                    @HystrixProperty(name = "circuitBreaker.forceOpen", value = "false"),
                    // 断路器强制关闭
                    @HystrixProperty(name = "circuitBreaker.forceClosed", value = "false"),
                    // 滚动时间窗设置,该时间用于断路器判断健康度时需要收集信息的持续时间
                    @HystrixProperty(name = "metrics.rollingStats.timeinMilliseconds", value = "10000"),
                    // 该属性用来设置滚动时间窗统计指标信息时划分"桶"的数量,断路器在收集指标信息的时候会根据
                    // 设置的时间窗长度拆分成多个 "桶" 来累计各度量值,每个"桶"记录了一段时间内的采集指标。
                    // 比如 10 秒内拆分成 10 个"桶"收集这样,所以 timeinMilliseconds 必须能被 numBuckets 整除。否则会抛异常
                    @HystrixProperty(name = "metrics.rollingStats.numBuckets", value = "10"),
                    // 该属性用来设置对命令执行的延迟是否使用百分位数来跟踪和计算。如果设置为 false, 那么所有的概要统计都将返回 -1。
                    @HystrixProperty(name = "metrics.rollingPercentile.enabled", value = "false"),
                    // 该属性用来设置百分位统计的滚动窗口的持续时间,单位为毫秒。
                    @HystrixProperty(name = "metrics.rollingPercentile.timeInMilliseconds", value = "60000"),
                    // 该属性用来设置百分位统计滚动窗口中使用 “ 桶 ”的数量。
                    @HystrixProperty(name = "metrics.rollingPercentile.numBuckets", value = "60000"),
                    // 该属性用来设置在执行过程中每个 “桶” 中保留的最大执行次数。如果在滚动时间窗内发生超过该设定值的执行次数,
                    // 就从最初的位置开始重写。例如,将该值设置为100, 滚动窗口为10秒,若在10秒内一个 “桶 ”中发生了500次执行,
                    // 那么该 “桶” 中只保留 最后的100次执行的统计。另外,增加该值的大小将会增加内存量的消耗,并增加排序百分位数所需的计算时间。
                    @HystrixProperty(name = "metrics.rollingPercentile.bucketSize", value = "100"),
                    // 该属性用来设置采集影响断路器状态的健康快照(请求的成功、 错误百分比)的间隔等待时间。
                    @HystrixProperty(name = "metrics.healthSnapshot.intervalinMilliseconds", value = "500"),
                    // 是否开启请求缓存
                    @HystrixProperty(name = "requestCache.enabled", value = "true"),
                    // HystrixCommand 的执行和事件是否打印日志到 HystrixRequestLog 中
                    @HystrixProperty(name = "requestLog.enabled", value = "true"),
                },
                threadPoolProperties = {
                    // 该参数用来设置执行命令线程池的核心线程数,该值也就是命令执行的最大并发量
                    @HystrixProperty(name = "coreSize", value = "10"),
                    // 该参数用来设置线程池的最大队列大小。当设置为 -1 时,线程池将使用 SynchronousQueue 实现的队列,
                    // 否则将使用 LinkedBlockingQueue 实现的队列。
                    @HystrixProperty(name = "maxQueueSize", value = "-1"),
                    // 该参数用来为队列设置拒绝阈值。 通过该参数, 即使队列没有达到最大值也能拒绝请求。
                    // 该参数主要是对 LinkedBlockingQueue 队列的补充,因为 LinkedBlockingQueue
                    // 队列不能动态修改它的对象大小,而通过该属性就可以调整拒绝请求的队列大小了。
                    @HystrixProperty(name = "queueSizeRejectionThreshold", value = "5"),
                })
public String strConsumer() {
    return "hello";
}

public String str_fallbackMethod() {
    return "fallback str_fallbackMethod";
}

 

服务监控

1、概述

(1)Hystrix 提供准实时的调用监控(Hystrix Dashboard),Hystrix 会持续地记录所有通过 Hystrix 发起的请求执行信息,并以统计报表、图形的形式展示给用户

(2)Netflix 通过 hystrix-metrics-event-stream 项目实现监控指标

(3)Spring Cloud 提供 Hystrix Dashboard 整合,对监控内容转化成可视化界面

2、Maven 工程

(1)依赖

<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-hystrix-dashboard</artifactId>
</dependency>

(2)Spring Boot 启动类添加注解

@EnableHystrixDashboard

(3)yaml 配置

server:
  port: 端口号

(4)访问监控页:http://localhost:端口号

(5)输入被监控的服务提供者地址:http://ip:port/hystrix.stream

3、所有微服务提供类

(1)配置监控依赖

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-actuator</artifactId>
</dependency>

(2)Spring Boot 启动类

/**
 * 此配置是为了服务监控而配置,与服务容错本身无关
 * ServletRegistrationBean因为springboot的默认路径不是"/hystrix.stream",
 * 只要在项目中配置以下servlet即可
 */
@Bean
public ServletRegistrationBean getServlet() {
    HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet();
    ServletRegistrationBean registrationBean = new ServletRegistrationBean(streamServlet);
    registrationBean.setLoadOnStartup(1);
    registrationBean.addUrlMappings("/hystrix.stream");
    registrationBean.setName("HystrixMetricsStreamServlet");
    return registrationBean;
}
posted @   半条咸鱼  阅读(107)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
点击右上角即可分享
微信分享提示