数据库的可用性衡量指标

一、RTO/RPO

        对于分布式数据库而言,高可用是一个专业名词,其是系统的一个特性,保障系统能在足够长的时间内提供指定程度的服务,衡量数据库系统的可用性用RTO和RPO;
    (1)RTO(Recovery Time Obejective,恢复时间指标):故障恢复过程中所需的时间花费。故障发生后,从IT系统停止服务开始,到IT服务系统恢复为止,此两点之间的时间段成为RTO,比如:故障发生后系统服务在12小时内便可恢复,那么RTO值就是12小时,对数据库系统而言,RTO通常需要控制在秒到分钟级别,该项指标是描述系统可用的指标之一,不能完全代表可用性。
    (2)RPO(Recovery Point Objective,恢复时间点目标):数据恢复后对应的时间点。即数据可恢复到哪个时间点上,该时间点之后的数据都会丢失,该值越小越好。如果数据库采用主备强同步或者多基于共识协议的副本技术,后者数据库依赖分布式文件系统,则RPO的值可以确保为0,即数据不丢失,该项指标更多的是在描述系统的可靠性,唯有可靠才更可用。

二、SLA

        SLA是在传统领域,在商业上定义系统的高可用性时采用SLA(Service Level Agreement,服务等级协议)。SLA是在一定开销下为保障服务的性能和可用性,服务提供商与用户共同定义的一种双方认可的协定,该协议在网络服务供应商领域被广泛使用,会约定最小带宽、同时服务客户数、最长故障时间等一系列指标。在软件领域,最广泛使用的指标是平均服务时间,例如,我们经常听到的服务可用性可达到几个9,就是服务的可用性数字化衡量指标,99.99%表示一年里服务最多只能有25.6分钟不可用,99.999%表示一年里最多只有有5.26分钟不可用。
SLA=使用正常运行时间/(正常运行时间+故障时间)

三、MTBF/MTTF/MTTR

    衡量计算机的高可用类似的指标,包括:MTBF、MTTR、MTTF
    MTBF:(Mean Time Between Failure,平均无故障时间):对于可修复系统,系统的平均寿命是指平均情况下两次相邻失效(故障)之间的工作时间,又称系统平均时效间隔,该值越大表示可用性越好。
    MTTF (Mean Time To Failure,平均时效时间):对于不可修复系统,系统的平均寿命指系统发生失效前的平均工作时间,又称系统在失效前的平均时间。
    MTTR (Mean Time To Repair,平均修复时间):对于可修复系统,该指标表示故障的平均修复时间,故障出现到修复的时间,MTTR越小表示易恢复性越好。

 

posted @ 2023-03-03 11:40  Syw_文  阅读(245)  评论(0编辑  收藏  举报