系统高可用需要考虑哪些方面

一、背景：

在大部分系统中，特别是面向C端的应用，都会遇到一个问题，就是如保证系统的高可用，总不能经常挂，那用户肯定不愿意用了，在这个过程，就需要考虑很多方面。

PS：这里假设系统架构及部署是合理的。

二、限流：

限流通常是第一步，假如系统能够承载的并发是1k，但是突然打过来的流量有3k，不做限流的话，系统肯定直接打挂了。

那么，就需要通过压测知道系统的并发负载能力。

1、压测：

在公司内部，通常由测试人员使用压测平台或工具（或者使用类似jmeter这样的压测工具）进行压测，测试会写一些测试脚本。

大促之前的压测通常由测试、研发、运维、DBA、中间件组等共同支持，对核心接口同时进行压测，观察CPU、线程等机器运行情况，以及数据库和中间件的情况。

在保证各方面参数正常的情况下，最终得到并发负载的阈值。

举个栗子：

我们主要关注TPS、TP99、错误率这些核心参数。

互联网业务的接口，TP99通常在200ms以内较好。

2、压测最主要解决的问题：

很明显，能通过扩容机器解决的问题几乎都不是问题，加机器谁不会呢。

压测最主要目的是找到扩容机器无法解决的问题，例如数据库连接不足。

3、压测之后：

压测之后，需要根据这些参数进行分析，错误率太高什么原因，并发太低又是因为什么？

我们发现这个接口的并发很低，怎么查看原因呢，可以通过skywalking查看整个调用链路，到底是哪个环节比较慢。

从整个追踪链路可以查看哪个环节最耗时，是否可以优化，怎么优化。

4、如何限流：

通常公司会有自己的服务治理平台，无论是自研还是三方开源（如：阿里Sentinel），也可以在网关层做限流。

上图是我司的限流配置，给sentinel套了个壳子，支持集群限流。

三、熔断：

通常就是后端的依赖出了问题，如依赖的服务、MySQL或者Redis很慢甚至挂了等类似的场景，这时候整个接口响应就很慢。

在一定时间内错误达到阈值，这时候开启熔断，对应时间窗口直接拒绝请求，之后再尝试处理请求。

1、为什么需要熔断：

RPC接口调用肯定会设置timeout时间，正常情况下，很少有超时的，用来保证接口响应，不可能一直阻塞等待。

如果没有熔断，可能会出现大量线程阻塞等待，最终把服务拖垮。

亦或者是被依赖的服务，这时候负载比较大，开启熔断，说不定就缓过来了。

2、使用场景：

出于安全和性能考虑，并发高的接口都可以设置熔断。

3、实现：

通过类似Hystrix的三方工具就可以实现熔断。（Resilience4j）

四、降级：

降级是在熔断的后面，如果熔断器开启，就谈不上主动降级。

降级主要分为两种大方向：

1、系统向外提供服务，肯定区分核心接口（功能）和非核心接口，当我们服务器负载过大，超过预设的阈值，可以通过在网关层设置开关将非核心接口暂停提供服务，从而尽量保证核心接口一定可用。

2、例如一个查询接口，本来要查询MySQL的，但是MySQL挂了，触发降级，从本地缓存中读取少量数据或历史数据，然后将结果返回。

1、实现降级：

1、在网关层开发规则开关，能够实时生效，快速处理紧急的问题。

2、如果是第二种场景，可以通过Hystrix实现。

五、资源隔离：

隔离就想轮船一样，会有很多货舱，相互隔离，即使某个货舱出了问题，也不会影响整个轮船。

解决的问题：当系统某个接口调用别的服务出现问题，请求一直阻塞在这里。如果并发高的话，会导致越来越多的线程资源被占用阻塞，最终可能就拖垮整个服务了。

通过设置资源隔离，例如这个接口设置最多占用20个线程。

1、对比：

资源隔离和熔断有一部分功能是重合的。例如依赖的服务负载很高，响应超级慢。

无论是哪一种解决方式都可以解决，亦或者两种都用上，只是哪个先生效的问题。

在调用MySQL或者Redis等中间件时候，这时候更倾向于用熔断器，例如查询MySQL一直报错，这时候开启熔断，直接返回了，减少资源浪费，等待MySQL恢复。

六、报警：

监控报警特别重要，即使前面的各种措施都做了（何况大部分系统也可能都做了），系统还是可能出问题，如果没有监控报警，可能需要用户报障或者系统炸了你才知道。

常见的监控报警大概分为几方面：应用告警、业务告警、微服务指标告警、慢SQL告警、中间件告警等。

1、应用告警：

应用报警包含了服务级别、日志告警、接口级别告警等。

告警参数及标准在对应平台设置好。

2、业务告警：

主要推送业务方面的告警信息，例如是核心接口，某些数据校验未通过这种。

3、微服务指标告警：

微服务级别的告警是很重要的，通常都是线程数、CPU使用率太高等类似问题，可能就需要研发人员排查解决问题的。

系统直接将机器情况、jvm（jstack、jstat）等情况打印到文件中，直接可以下载定位问题。

4、慢SQL告警：

慢SQL告警的话，也是需要研发做优化，修改SQL，加索引，定时统计，大数据部门支持等处理方案。

七、监控：

1、业务数据看板：

有句话说得好，没有数据支持都是白扯，一切以数据为导向。

数据才能提现你做一个需求真正的价值。

我司通常都会将核心功能及流程做可视化数据看板展示，不仅仅为了让研发能够看到数据效果，还能及时发现是否有突发状况导致核心流程异常，特别是刚上线的时候，如果有bug，从看板上可以很快知道。

通过Grafana或者其他组件实现的数据统计及展示。

2、应用监控：

包含了提供的接口、依赖的接口、Redis、MQ等监控。

3、系统指标：

4、JVM指标：

5、集成业务大盘：

前面的监控指标都比较分散，需要一个个点击加载查看，相对麻烦，可以直接将需要的指标做成一个大盘，包含机器运行、jvm、核心接口等监控。

6、总结：

监控来说，主要是上面这些维度，当然也会有其他定制化的需求，总体就是这样的。

通过前面的监控 + 报警灯措施，尽可能保证系统的高可用，能够及时发现问题并且解决。

posted @ 2022-02-08 20:55 Diamond-Shine 阅读(387) 评论(0) 编辑收藏举报

刷新页面返回顶部

Diamond-Shine

Java、fitness、hunger and desire

系统高可用需要考虑哪些方面

一、背景：

二、限流：

1、压测：

2、压测最主要解决的问题：

3、压测之后：

4、如何限流：

三、熔断：

1、为什么需要熔断：

2、使用场景：

3、实现：

四、降级：

1、实现降级：

五、资源隔离：

1、对比：

六、报警：

1、应用告警：

2、业务告警：

3、微服务指标告警：

4、慢SQL告警：

七、监控：

1、业务数据看板：

2、应用监控：

3、系统指标：

4、JVM指标：

5、集成业务大盘：

6、总结：

公告