Loading

服务熔断Hystrix高级

1 前言

  • 我们知道,当请求失败,被拒绝,超时的时候,都会进入到降级方法中。但是进入降级方法并不意味着断路器已经被打开了。此时我们需要Hystrix的监控平台来查看断路器的状态。

2 Hystrix的监控平台

2.1 概述

  • 除了实现容错功能,Hystrix还提供了近乎实时的监控,HystrixCommand和HystrixObervableCommand在执行的时候,会生成执行结果和运行指标。比如每秒的请求数量、成功数量等待。这些状态会暴露在Actuator提供的/health端点中。

  • 导入相关jar包的Maven坐标:

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
<!-- openfeign -->
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-openfeign</artifactId>
</dependency>
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
</dependency>
  • 在启动类上开启Hystrix:
package com.sunxiaping;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.cloud.client.circuitbreaker.EnableCircuitBreaker;
import org.springframework.cloud.openfeign.EnableFeignClients;

@SpringBootApplication
@EnableFeignClients //开启OpenFeign的支持
@EnableCircuitBreaker //开启Hystrix
public class Order9007Application {
    public static void main(String[] args) {
        SpringApplication.run(Order9007Application.class, args);
    }
}
  • 在application.yml中将所有的端点打开:
# 配置hystrix
hystrix:
    command:
      default:
        execution:
          isolation:
            thread:
              timeoutInMilliseconds: 6000 # 默认的连接超时时间为1秒,如果1秒没有返回数据,就自动触发降级逻辑
feign:
  hystrix: # 开启Feign中的Hystrix
    enabled: true

# 暴露所有端点
management:
  endpoints:
    web:
      exposure:
        include: '*'
  • 重启项目,访问http://localhost:9007/actuator/hystrix.stream,即可以看到实时监控数据。

实时监控数据

2.2 搭建Hystrix DashBoard监控

  • Hystrix官方提供了基于图形化的DashBoard(仪表盘)监控平台,用来直观的展示系统的运行状态。Hystrix仪表盘可以显示每个断路器的状态。

  • 导入依赖:

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
</dependency>
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-hystrix-dashboard</artifactId>
</dependency>
  • 在启动类上添加@EnableHystrixDashboard注解以激活仪表盘:
package com.sunxiaping;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.cloud.client.circuitbreaker.EnableCircuitBreaker;
import org.springframework.cloud.netflix.hystrix.dashboard.EnableHystrixDashboard;
import org.springframework.cloud.openfeign.EnableFeignClients;

@SpringBootApplication
@EnableFeignClients //开启OpenFeign的支持
@EnableCircuitBreaker //开启Hystrix
@EnableHystrixDashboard // 激活仪表盘
public class Order9007Application {
    public static void main(String[] args) {
        SpringApplication.run(Order9007Application.class, args);
    }
}

搭建Hystrix DashBoard监控

2.3 断路器聚合监控Turbine

2.3.1 概述

  • 在微服务架构体系中,每个服务都需要配置Hystrix DashBoard监控。如果每次只能查看单个实例的监控数据,就需要不断切换监控地址,这显然很不方便。要想看整个系统的Hystrix DashBoard数据就需要用到Hystrix Turbine。Turbine是一个聚合Hystrix监控数据的工具,它可以将所有相关微服务的Hystrix监控数据聚合到一起,方便使用,引入Turbine后,整个监控系统架构如下:

Turbine

2.3.2 搭建Turbine Server

  • 1️⃣创建一个工程,并引入相关jar包的Maven坐标:
  • 修改部分:
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-hystrix-dashboard</artifactId>
</dependency>
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
</dependency>
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-turbine</artifactId>
</dependency>
  • 完整部分:
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xmlns="http://maven.apache.org/POM/4.0.0"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>spring_cloud_demo</artifactId>
        <groupId>org.sunxiaping</groupId>
        <version>1.0</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>hystrix_turbine7004</artifactId>

    <dependencies>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-netflix-hystrix-dashboard</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-netflix-turbine</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
    </dependencies>
</project>
  • 2️⃣配置多个微服务的hystrix监控。
  • 在application.yml的配置文件中开启turbine并进行相关配置:
server:
  port: 7004

spring:
  application:
    name: service-turbine # 微服务的名称

# 配置 eureka
eureka:
  instance:
    # 主机名称:服务名称修改,其实就是向eureka server中注册的实例id
    instance-id: service-turbine:${server.port}
    # 显示IP信息
    prefer-ip-address: true
  client:
    service-url: # 此处修改为 Eureka Server的集群地址
      defaultZone: http://eureka7001.com:7001/eureka/,http://eureka7002.com:7002/eureka/,http://eureka7003.com:7003/eureka/

turbine:
  # 要监控的微服务列表,多个用,隔开
  app-config: service-order
  cluster-name-expression: "'default'"
  • 3️⃣配置启动类:
package com.sunxiaping.turbine;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.cloud.netflix.hystrix.dashboard.EnableHystrixDashboard;
import org.springframework.cloud.netflix.turbine.EnableTurbine;

@SpringBootApplication
@EnableHystrixDashboard
@EnableTurbine
public class Turbine7004Application {
    public static void main(String[] args) {
        SpringApplication.run(Turbine7004Application.class, args);
    }
}
  • 4️⃣浏览器访问http://localhost:7004/hystrix展示Hystrix DashBoard,并在URL的位置输入http://localhost:7004/turbine.stream,可能会出现如下的错误:

hystrix dashboard Unable to connect to Command Metric Stream解决办法

  • 需要在SpringBoot中配置HystrixMetricsStreamServlet:
package com.sunxiaping.config;

import com.netflix.hystrix.contrib.metrics.eventstream.HystrixMetricsStreamServlet;
import org.springframework.boot.web.servlet.ServletRegistrationBean;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class SpringConfig {
    @Bean
    public ServletRegistrationBean getServlet() {
        HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet();
        ServletRegistrationBean registrationBean = new ServletRegistrationBean(streamServlet);
        registrationBean.setLoadOnStartup(1);
        registrationBean.addUrlMappings("/hystrix.stream");
        registrationBean.setName("HystrixMetricsStreamServlet");
        return registrationBean;
    }
}

3 断路器的状态

3.1 概述

  • 断路器的状态有三种:CLOSEDOPENHALF_OPEN。断路器默认CLOSED状态,当触发熔断后状态变更为OPEN状态,在等待指定的时间,Hystrix会放请求检测服务是否开启,这期间断路器的状态会由OPEN状态变为HALF_OPEN状态,一旦探测服务可用则将断路器的状态由HALF_OPEN变为CLOSED来关闭断路器。

断路器的状态

  • CLOSED:关闭状态,所有请求都能够正常访问。代理类维护了最近调用失败的次数,如果某次调用失败,则失败次数加1。如果最近失败次数超过了在给定时间内允许失败的阈值,则代理类切换到OPEN(打开)状态。此时代理开启了一个超时时钟,当该时钟超过了该时间,则切换到HALF_OPEN(半打开)状态。该超时是吉恩的设定给了系统一次机会来修正导致调用失败的错误。
  • OPEN:打开状态,所有请求都会被降级。Hystrix会对请求情况计数,当一定时间内失败请求百分比达到阈值,则触发熔断,断路器完全关闭。默认失败比例的阈值是50%,请求次数最少不低于20次。
  • HALF_OPEN:半打开状态,OPEN的状态不是永久的,打开后进行休眠时间(默认是5秒)。随后断路器会自动进入半打开状态,此时会释放一个请求通过,如果这个请求是健康的,则关闭断路器,否则继续保持打开,再次进行5秒休眠计时。

总结:

  • 1️⃣Hystrix正常启动的时候,断路器的状态是CLOSED状态(所有的请求都可以正常访问)。
  • 2️⃣默认情况下,当请求次数大于20次,且存在50%的失败概率的时候,将自动触发熔断,断路器的状态变为OPEN状态(所有的请求都会进入到降级方法中)。
  • 3️⃣默认情况下,会维持OPEN状态一段时间(5s),进入到半打开状态(尝试释放一个请求到远程微服务发起调用)。如果释放的请求可以正常访问,就会关闭断路器(断路器的状态由HALF_OPEN状态变为CLOSED状态)。如果释放的请求不能访问,则将状态由HALF_OPEN状态变为OPEN状态。

3.2 测试断路器的工作状态

3.2.1 环境准备

  • ①在订单系统中加入如下的逻辑:

    • 1️⃣判断请求的id,如果id=1,正常执行(正常调用微服务)。
    • 2️⃣判断请求的id,如果id!=1,抛出异常。
  • ②默认Hystrix有断路器状态转化的阈值。

    • 1️⃣触发熔断的最小请求次数为20次。
    • 2️⃣触发熔断的请求失败比例为50%。
    • 3️⃣断路器开启的时长为5秒。

3.2.2 修改订单系统的逻辑

  • OrderController.java
package com.sunxiaping.order.controller;


import com.netflix.hystrix.contrib.javanica.annotation.HystrixCommand;
import com.netflix.hystrix.contrib.javanica.annotation.HystrixProperty;
import com.sunxiaping.order.domain.Product;
import com.sunxiaping.order.feign.ProductFeignClient;
import lombok.var;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.PathVariable;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.client.RestTemplate;

@RestController
@RequestMapping(value = "/order")
public class OrderController {
    @Autowired
    private RestTemplate restTemplate;

    @Autowired
    private ProductFeignClient productFeignClient;

    @GetMapping(value = "/buy/{id}")
    @HystrixCommand(fallbackMethod = "orderFallback", commandProperties = {
            @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "3000"), //默认的连接超时时间为1秒,如果1秒内没有返回数据,自动触发降级逻辑
            
    })
    public Product buy(@PathVariable(value = "id") Long id) {
        if (1 != id) {
            throw new RuntimeException("服务器异常");
        }
        return restTemplate.getForObject("http://SERVICE-PRODUCT/product/findById/" + id, Product.class);
    }

    public Product orderFallback(Long id) {
        var product = new Product();
        product.setId(Long.MAX_VALUE);
        product.setProductName("******测试断路器的状态******");
        return product;
    }

}

3.2.3 修改Hystrix有断路器状态转化的阈值

  • 修改方式一:@HystrixCommand注解中配置
package com.sunxiaping.order.controller;


import com.netflix.hystrix.contrib.javanica.annotation.HystrixCommand;
import com.netflix.hystrix.contrib.javanica.annotation.HystrixProperty;
import com.sunxiaping.order.domain.Product;
import com.sunxiaping.order.feign.ProductFeignClient;
import lombok.var;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.PathVariable;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.client.RestTemplate;

@RestController
@RequestMapping(value = "/order")
public class OrderController {
    @Autowired
    private RestTemplate restTemplate;

    @Autowired
    private ProductFeignClient productFeignClient;

    @GetMapping(value = "/buy/{id}")
    @HystrixCommand(fallbackMethod = "orderFallback", commandProperties = {
            @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "3000"), //默认的连接超时时间为1秒,如果1秒内没有返回数据,自动触发降级逻辑
            @HystrixProperty(name = "circuitBreaker.enabled", value = "true"),  //是否开启断路器
            @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold", value = "5"),   //触发熔断的最小请求次数,默认为20/10秒
            @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds", value = "10000"),  //熔断多少秒后去尝试请求,默认为10秒
            @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage", value = "50"), //触发熔断的失败请求最小比例,默认为50%
    })
    public Product buy(@PathVariable(value = "id") Long id) {
        if (1 != id) {
            throw new RuntimeException("服务器异常");
        }
        return restTemplate.getForObject("http://SERVICE-PRODUCT/product/findById/" + id, Product.class);
    }

    public Product orderFallback(Long id) {
        var product = new Product();
        product.setId(Long.MAX_VALUE);
        product.setProductName("******测试断路器的状态******");
        return product;
    }

}
  • 修改方式二:修改application.yml
hystrix:
  command:
    default:
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 3000 # 默认的连接超时时间为1秒,如果1秒没有返回数据,就自动触发降级逻辑
      circuitBreaker:
        requestVolumeThreshold: 5 #触发熔断的最小请求次数,默认20/10秒
        sleepWindowInMilliseconds: 10000 #熔断多少秒后去尝试请求,默认为10秒
        errorThresholdPercentage: 50 #触发熔断的失败请求最小占比,默认50%

4 断路器的隔离策略

  • 微服务使用Hystrix熔断器实现了服务的自动降级,让微服务具备自我保护的能力,提升了系统的稳定性,也较好的解决了雪崩效应。其使用方式目前支持两种策略:
  • 1️⃣线程池隔离策略:使用一个线程池来存储当前的请求,线程池对请求进行处理,设置任务返回处理超时时间,堆积的请求入线程池队列。这种方式需要为每个依赖的服务申请线程池队列,有一定的资源消耗,好处是可以应对突发流量(流量洪峰来临时,处理不玩可以将数据存储到线程池队列慢慢处理)。
  • 2️⃣信号量隔离策略:使用一个原子计数器(或信号量)来记录当前有多少个线程在运行,请求过来先判断计数器的数值,如果超过设置的最大线程个数则丢弃该类型的新请求,如果不超过设置的最大线程个数则将计数器+1,请求返回计数器-1。这种方式是严格控制线程且立即返回模式,无法应对突发流量(流量洪峰来临时,处理的线程超过数量,其他的请求会直接返回,不继续去请求依赖的服务)。
线程池隔离 信号量隔离
线程 与调用线程非相同线程 与调用线程相同(jetty线程)
开销 排队、调度、上下文开销等 无线程切换,开销低
异步 可以是异步,也可以是同步。看调用的方法 同步调用,不支持异步
并发支持 支持(最大线程池大小hystrix.threadpool.default.maximumSize) 支持(最大信号量上限maxConcurrentRequests)
是否超时 支持,可直接返回 不支持,如果阻塞,只能通过调用协议(如:socket超时才能返回)
是否支持熔断 支持,当线程池到达maxSize后,再请求会触发fallback接口进行熔断 支持,当信号量达到maxConcurrentRequests后。再请求会触发fallback
隔离原理 每个服务单独用线程池 通过信号量的计数器
资源开销 大,大量线程的上下文切换,容易造成机器负载高 小,只是个计数器
  • 可以通过在application.yml中配置隔离策略:
hystrix:
  command:
    default:
      execution:
        isolation:
          strategy: ExecutionIsolationStrategy.SEMAPHORE # 信号量隔离
          maxConcurrentRequests: 5000  # 最大信号量上限
          # strategy: ExecutionIsolationStrategy.THREAD # 线程池隔离
posted @ 2020-10-03 16:25  许大仙  阅读(389)  评论(0编辑  收藏  举报