【分布式】什么是服务熔断?什么是服务降级?

一、什么是服务熔断?

动漫形象解释:https://blog.csdn.net/bjweimengshu/article/details/79441695 (考试遇到难题试试几次,不会就放弃【熔断】先)

         在互联网系统中,当下游服务因访问压力过大而响应变慢或失败,上游服务为了保护系统整体的可用性,可以暂时切断对下游服务的调用。

         这种牺牲局部,保全整体的措施就叫做熔断。

  如果不采取熔断措施,我们的系统会怎样呢?

    我们来看一个栗子。当前系统中有A,B,C三个服务,服务A是上游,服务B是中游,服务C是下游。

        它们的调用链如下:

            

     一旦下游服务C因某些原因变得不可用,积压了大量请求,服务B的请求线程也随之阻塞。线程资源逐渐耗尽,使得服务B也变得不可用。紧接着,服务      A也变为不可用,整个调用链路被拖垮。

     

     像这种调用链路的连锁故障,叫做雪崩

在这种时候,就需要我们的熔断机制来挽救整个系统。
熔断机制的大体流程和刚才所讲的考试策略如出一辙:

这里需要解释两点:

      1. 开启熔断

           在固定时间窗口内,接口调用超时比率达到一个阈值,会开启熔断。

           进入熔断状态后,后续对该服务接口的调用不再经过网络,直接执行本地的默认方法,达到服务降级的效果。

      2. 熔断恢复

           熔断不可能是永久的。

           当经过了规定时间之后,服务将从熔断状态回复过来,再次接受调用方的远程调用。

 

二、Spring Cloud Hystrix很好的实现了熔断机制

           服务熔断的实际应用

           Spring Cloud Hystrix是基于Netflix的开源框架Hystrix实现,该框架实现了服务熔断线程隔离等一系列服务保护功能。

           对于熔断机制的实现,Hystrix设计了三种状态:

                1.熔断关闭状态(Closed)

                       服务没有故障时,熔断器所处的状态,对调用方的调用不做任何限制。

                2.熔断开启状态(Open)

                       在固定时间内(Hystrix默认是10秒),接口调用出错比率达到一个阈值(Hystrix默认为50%),会进入熔断开                                  启状态。

                       进入熔断状态后,  后续对该服务接口的调用不再经过网络,直接执行本地的fallback方法

                3.半熔断状态(Half-Open)

                        在进入熔断开启状态一段时间之后(Hystrix默认是5秒),熔断器会进入半熔断状态。

                        所谓半熔断就是尝试恢复服务调用,允许有限的流量调用该服务,并监控调用成功率。

                        如果成功率达到预期,则说明服务已恢复,进入熔断关闭状态;如果成功率仍旧很低,则重新进入熔断开启                                     状态。

         三个状态的转化关系如下图:

               

 

服务降级


  服务降级是指 当服务器压力剧增的情况下,根据实际业务情况及流量,对一些服务和页面有策略的不处理或换种简单的方式处理,从而释放服务器资源以保证核心业务正常运作或高效运作。说白了,就是尽可能的把系统资源让给优先级高的服务。
  资源有限,而请求是无限的。如果在并发高峰期,不做服务降级处理,一方面肯定会影响整体服务的性能,严重的话可能会导致宕机某些重要的服务不可用。所以,一般在高峰期,为了保证核心功能服务的可用性,都要对某些服务降级处理。比如当双11活动时,把交易无关的服务统统降级,如查看蚂蚁深林,查看历史订单等等。

  服务降级主要用于什么场景呢?当整个微服务架构整体的负载超出了预设的上限阈值或即将到来的流量预计将会超过预设的阈值时,为了保证重要或基本的服务能正常运行,可以将一些 不重要 或 不紧急 的服务或任务进行服务的 延迟使用 或 暂停使用。
  降级的方式可以根据业务来,可以延迟服务,比如延迟给用户增加积分,只是放到一个缓存中,等服务平稳之后再执行 ;或者在粒度范围内关闭服务,比如关闭相关文章的推荐。

  
  实现服务降级需要考虑几个问题

1)那些服务是核心服务,哪些服务是非核心服务
2)那些服务可以支持降级,那些服务不能支持降级,降级策略是什么
3)除服务降级之外是否存在更复杂的业务放通场景,策略是什么?
  
  自动降级分类
  1)超时降级:主要配置好超时时间和超时重试次数和机制,并使用异步机制探测回复情况
  2)失败次数降级:主要是一些不稳定的api,当失败调用次数达到一定阀值自动降级,同样要使用异步机制探测回复情况
  3)故障降级:比如要调用的远程服务挂掉了(网络故障、DNS故障、http服务返回错误的状态码、rpc服务抛出异常),则可以直接降级。降级后的处理方案有:默认值(比如库存服务挂了,返回默认现货)、兜底数据(比如广告挂了,返回提前准备好的一些静态页面)、缓存(之前暂存的一些缓存数据)
  4)限流降级:秒杀或者抢购一些限购商品时,此时可能会因为访问量太大而导致系统崩溃,此时会使用限流来进行限制访问量,当达到限流阀值,后续请求会被降级;降级后的处理方案可以是:排队页面(将用户导流到排队页面等一会重试)、无货(直接告知用户没货了)、错误页(如活动太火爆了,稍后重试)。

  

服务熔断和服务降级的区别
  触发原因不太一样,服务熔断一般是某个服务(下游服务)故障引起,而服务降级一般是从整体负荷考虑;
  管理目标的层次不太一样,熔断其实是一个框架级的处理,每个微服务都需要(无层级之分),而降级一般需要对业务有层级之分(比如降级一般是从最外围服务开始)
  实现方式不太一样,服务降级具有代码侵入性(由控制器完成/或自动降级),熔断一般称为自我熔断。

限流:限制并发的请求访问量,超过阈值则拒绝;
降级:服务分优先级,牺牲非核心服务(不可用),保证核心服务稳定;从整体负荷考虑;
熔断:依赖的下游服务故障触发熔断,避免引发本系统崩溃;系统自动执行和恢复

 

posted on 2022-10-04 01:25  bdy  阅读(23)  评论(0编辑  收藏  举报

导航