微服务16:微服务治理之熔断、限流
★微服务系列
微服务1:微服务及其演进史
微服务2:微服务全景架构
微服务3:微服务拆分策略
微服务4:服务注册与发现
微服务5:服务注册与发现(实践篇)
微服务6:通信之网关
微服务7:通信之RPC
微服务8:通信之RPC实践篇(附源码)
微服务9:服务治理来保证高可用
微服务10:系统服务熔断、限流
微服务11:熔断、降级的Hystrix实现(附源码)
微服务12:流量策略
微服务13:云基础场景下流量策略实现原理
微服务14:微服务治理之重试
微服务15:微服务治理之超时
1 介绍
在互联网电商场景中,我们经常会遇到有计划的流量洪峰,比如 双11、618购物节,积分竞拍和定时抢购的疯狂场景。
这种是在预期内的,知道会发生并有一定的准备。而那些预期之外的突发流量异常,才是真正给我们带来挑战的部分,比如:
- 硬件故障:如服务器宕机,机房断电,光纤被挖断等。
- 缓存击穿:一般发生在应用重启导致的缓存失效,以及短时间内大量缓存过期失效时。大量的无法命中,使请求直击后端服务,造成服务提供者超负荷运行,引起服务不可用。
- 程序BUG:如程序逻辑导致内存泄漏;JVM长时间FullGC等。
- 新功能上线:未经过评估,导致非预期流量上涨 ( 某次功能上线,未进行有效的容量评估,导致ws长连接翻数倍)。
单个服务因为流量变化变得不可用,这种不可用如果持续可能是出现水平和垂直双重的扩散。
在分布式系中的某个服务故障沿着调用链向上传递,出现整体的服务雪崩,如下图,这种情况如何提升系统的稳定性和健壮性是我们首要考虑的问题。
2 异常流量洪峰的常见治理手段
一般是采用限流或者熔断:避免预期外流量或故障导致的流量洪峰引起服务雪崩,沿调用向上传递,造成整个链路崩溃。
2.1 限流手段
限流部分,对来路流量做了限制,不允许超过预期峰值。执行过程说明:
- 这边以示例服务 Service A 向 Service B 发起访问为例子。
- 当Service A 感知到 Service B 的某个实例响应时间变慢或者异常返回变多之后,开始对Service B 发起限流。
- 比如使用令牌桶原理(定速流入),每秒钟只提供N个令牌,每个请求携带一个令牌标识前行,用完即限行。
- 或者使用漏桶算法(漏斗池算法),无论请求多少,请求的速率有多大,都按照固定的速率流出,对应的就是服务按照固定的速率处理请求。
- 这样就不会超过预期我们的服务能够承载的QPS,避免被打穿的风险 。
2.2 熔断手段
熔断部分,则是直接断流,流量就不会再负载过去了。执行过程说明:
- 这边以示例服务 Service A 向 Service B 发起访问为例子。
- 当Service A 感知到 Service B 的某个实例响应时间变慢或者异常数不符合我们预期的,开始对Service B 发起熔断。
- 熔断并不是对整个服务都熔断掉,而是对服务中的某个实例进行熔断,其他健康实例还是可以负载流量的。
- 这样就避免了我们的流量持续打到的异常的实例上,造成请求有损的体验 。
3 策略实现(Service Mesh方案)
注释比较清晰了,这边就不解释了。
# DestinationRule
apiVersion: networking.istio.io/v1beta1
kind: DestinationRule
metadata:
name: xx-svc-b-vs
namespace: kube-ns-xx
spec:
host: svc_b.google.com # 治理发往svc_b服务的流量
trafficPolicy:
loadBalancer:
simple: ROUND_ROBIN
connectionPool:
http:
http1MaxPendingRequests: 50000 # 等待队列,超额熔断
http2MaxRequests: 40000 # http请求数限制,超额熔断
maxRetries: 2 # 同一个请求的超时次数上限限制,超过即熔断。应用于当前所有的host。
tcp:
maxConnections: 40000 # 后端集群总的TCP连接数,超额熔断
4 总结
云基础场景下的治理手段各种各样,这边讲解了初级版的熔断/限流方案,让用户有一个更优良的使体验。
同时在系统大面积崩溃的时候,进行系统保护,不至于全面崩塌。
在后续的章节我们逐一了解下异常驱逐、异常自动重启等高级用法。