随笔- 667 文章- 0 评论- 116 阅读- 155万

数据库的可用性衡量指标

一、RTO/RPO

        对于分布式数据库而言，高可用是一个专业名词，其是系统的一个特性，保障系统能在足够长的时间内提供指定程度的服务,衡量数据库系统的可用性用RTO和RPO；
    （1）RTO（Recovery Time Obejective,恢复时间指标）：故障恢复过程中所需的时间花费。故障发生后，从IT系统停止服务开始，到IT服务系统恢复为止，此两点之间的时间段成为RTO，比如：故障发生后系统服务在12小时内便可恢复，那么RTO值就是12小时，对数据库系统而言，RTO通常需要控制在秒到分钟级别，该项指标是描述系统可用的指标之一，不能完全代表可用性。
    （2）RPO（Recovery Point Objective，恢复时间点目标）：数据恢复后对应的时间点。即数据可恢复到哪个时间点上，该时间点之后的数据都会丢失，该值越小越好。如果数据库采用主备强同步或者多基于共识协议的副本技术，后者数据库依赖分布式文件系统，则RPO的值可以确保为0，即数据不丢失，该项指标更多的是在描述系统的可靠性，唯有可靠才更可用。

二、SLA

SLA是在传统领域，在商业上定义系统的高可用性时采用SLA（Service Level Agreement，服务等级协议）。SLA是在一定开销下为保障服务的性能和可用性，服务提供商与用户共同定义的一种双方认可的协定，该协议在网络服务供应商领域被广泛使用，会约定最小带宽、同时服务客户数、最长故障时间等一系列指标。在软件领域，最广泛使用的指标是平均服务时间，例如，我们经常听到的服务可用性可达到几个9，就是服务的可用性数字化衡量指标，99.99%表示一年里服务最多只能有25.6分钟不可用，99.999%表示一年里最多只有有5.26分钟不可用。
SLA=使用正常运行时间/（正常运行时间+故障时间）

三、MTBF/MTTF/MTTR

    衡量计算机的高可用类似的指标，包括：MTBF、MTTR、MTTF
    MTBF：(Mean Time Between Failure，平均无故障时间）：对于可修复系统，系统的平均寿命是指平均情况下两次相邻失效（故障）之间的工作时间，又称系统平均时效间隔，该值越大表示可用性越好。
    MTTF (Mean Time To Failure，平均时效时间）：对于不可修复系统，系统的平均寿命指系统发生失效前的平均工作时间，又称系统在失效前的平均时间。
    MTTR (Mean Time To Repair，平均修复时间)：对于可修复系统，该指标表示故障的平均修复时间，故障出现到修复的时间，MTTR越小表示易恢复性越好。