两地三中心容灾方案
1、概述
两地三中心容灾解决方案中的“两地三中心”一般指的是一个生产中心、一个同城灾难备份中心、一个异地灾难备份中心。生产中心的数据同步地复制到同城灾难备份中心,同时,生产中心的数据异步地复制到异地灾难备份中心。
同城灾备中心通常具备与生产中心等同业务处理能力,应用可在不丢失数据的情况下切换到同城灾备中心运行,保持业务连续运行。在生产中心和同城容灾中心同时不可用时,可在异地的容灾中心实现业务的恢复,保持业务连续性。
相比仅建立同城灾难备份中心或异地灾难备份中心,“两地三中心”的方式结合两者的优点,能够适应更大范围的灾难场景,对于小范围的区域性灾难和较大范围的自然灾害,都能够通过灾难备份系统较快地响应,尽可能保全业务数据不丢失,实现更优的RPO和RTO。所以,两地三中心容灾解决方案得到了广泛的应用。
两地三中心的容灾方式是当前容灾建设的一个重要趋势,在电信、金融、制造、高校信息化等领域得到广泛的使用。 通过建设近距离的数据中心(同城数据中心)获得接近于零数据丢失的数据保护,通过建设较远距离的数据中心(异地数据中心)获得远距离的数据保护,避免区域性的灾难导致业务无法恢复。
在业务连续性和灾难恢复计划中,RTO(恢复时间目标)和RPO(恢复点目标)是两个关键的指标:
1. RTO - 恢复时间目标 (Recovery Time Objective):
- 定义:RTO是指在发生系统故障或灾难后,系统必须恢复到可操作状态的最大可接受时间。
- 重要性:RTO体现了业务对系统恢复速度的需求,是衡量业务连续性计划有效性的重要指标。
- 影响因素:RTO的确定需要考虑业务对时间的敏感度、客户服务水平协议(SLA)要求、以及恢复资源的可用性。
- 例子:如果一个在线商务平台的RTO是1小时,这意味着在发生故障后,该平台必须在1小时内恢复所有关键功能。
2. RPO - 恢复点目标 (Recovery Point Objective):
- 定义:RPO是指在系统恢复时,允许丢失的数据量的最大值,即数据恢复到故障发生前最近一个时间点的状态。
- 重要性:RPO体现了业务对数据完整性和一致性的需求,是衡量数据保护策略有效性的重要指标。
- 影响因素:RPO的确定需要考虑数据变化的频率、数据的重要性、以及数据备份和复制的策略。
- 例子:如果一个财务系统的RPO是5分钟,这意味着在发生故障时,系统恢复的数据可以是最近5分钟内未被记录的数据。
详细解释:
- 确定RTO和RPO的过程 :通常,这涉及到对业务流程的评估,了解不同系统和应用对业务运作的重要性,以及对时间敏感度的评估。这可能需要与业务部门合作,确定不同系统的最大可容忍停机时间和数据丢失量。
- 策略制定 :基于RTO和RPO的目标,组织需要制定相应的技术策略和流程,例如实施高可用性架构、定期备份、灾难恢复演练等。
- 成本与效益平衡 :降低RTO和RPO通常需要更多的资源和技术投入,如使用更高级的存储解决方案或增加冗余系统。因此,需要在成本和效益之间找到平衡点。
- 持续评估 :业务需求和技术环境可能会随时间变化,因此RTO和RPO的目标需要定期重新评估和更新。
在您的项目中,如果已经确定了具体的RTO和RPO目标,应确保这些目标在项目规划和执行过程中得到充分考虑,并在必要时进行调整以满足业务需求。
2、两地三中心关键技术原理
2.1 应用级高可用业务接管
提供针对多种应用任意距离内的高可用性服务,当应用异常或生产系统出现异常 (如服务异常停止、网络异常、硬件故障、生产系统宕机维护)而导致应用业务系统不可用时,能将相关应用立刻切换到灾备服务器上, 由灾备服务器上的应用提供服务,保证整体业务的连续和不间断。
2.2 数据实时/定时备份
连续数据备份、按需恢复服务,能简便地将生产端的数据实时或定时备份到本地或异地的灾备中心节点,并且按需快速地恢复需要的数据。并严格保证生产系统和灾备中心数据的一致性和完整性。 可广泛应用于普通文件系统、数据库系统、邮件系统等实时的容灾备份保护。
在数据备份的同时,将变化的数据以字节级复制或快照的方式实时复制到灾备中心的同时,把数据的变化以日志方式记录下来。在系统故障时根据数据变化日志,快速定位需要恢复的时间点,将数据一键式恢复到异常点之前,保证数据的安全性和业务的连续性。
主要参考:https://baijiahao.baidu.com/s?id=1771490537899043097&wfr=spider&for=pc