SLA理解
1.介绍
转自:https://zhuanlan.zhihu.com/p/488086057
SLA (Service Level Agreement)服务等级协议,指的是系统服务提供者(provider)对客户(customer)的一个服务承诺。
类型和指标:
SLA类型 | 指标 |
---|---|
可用性 | 接口成功率 |
准确性 | error 率 |
系统容量 | qps |
延迟 | tp95、tp99 |
- 可用性Availability:系统服务能正常运行所占的时间百分比。指标:接口成功率。
- 准确性( Accuracy):准确性指的是所设计的系统服务中,是否允许某些数据是不准确的或者是丢失了的。error率。
- 系统容量(Capacity):在数据处理中,系统容量通常指的是系统能够支持的预期负载量是多少。qps。
- 延迟(Latency):延迟指的是系统在收到用户的请求到响应这个请求之间的时间间隔。tp99。
1.1 延迟
https://www.cnblogs.com/Tanwheey/p/12401485.html,链接有介绍如何计算不同比例的TP。
TP99就是满足99%的网络请求所需要的最低耗时。TP99=10ms,标识这段时间99%的请求都在10毫秒以内。
TP=Top Percentile。 【请求耗时应该是包括发送请求、处理、响应,这几个阶段的总的时间吧?】
2.举例
https://zhuanlan.zhihu.com/p/158014833
云厂商宣传的SLA例子
其服务可用性承诺,最高可达到99.995%。
//如果达不到该标准,那是需要给用户赔钱的。 这是基于强大的技术。
2.1 SLO计算
Service Level Object,即服务水平目标,围绕SLI建立的目标,Service Level Indicator,服务水平指示器。
1年 = 365天 = 8760小时 99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时 99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟 99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
几个9的比例计算是基于一段时间的,比如一年时间,如果要达到可用性99.99%,那就一年最多只能宕机52.6分钟;如果达到5个9,一年只能宕机5.26分钟。
https://zhuanlan.zhihu.com/p/358149438,计算例子: