“两地三中心”和“双活”
1、 同城 容灾
同城 容灾 是在同城或相近区域内 ( ≤ 200K M )建立两个数据中心 : 一个为数据中心,负责日常生产运行 ; 另一个为灾难备份中心,负责在灾难发生后的应用系统运行。同城灾难备份的数据中心与灾难备份中心的距离比较近,通信线路质量较好,比较容易实现数据的同步 复制 ,保证高度的数据完整性和数据零丢失。同城灾难备份一般用于防范火灾、建筑物破坏、供电故障、计算机系统及人为破坏引起的灾难。
2、 异地 容灾
异地 容灾 主备中心之间的距离较远 (> 200KM ) , 因此一般采用异步镜像,会有少量的数据丢失。异地灾难备份不仅可以防范火灾、建筑物破坏等可能遇到的风险隐患,还能够防范战争、地震、水灾等风险。由于同城灾难备份和异地灾难备份各有所长,为达到最理想的防灾效果,数据中心应考虑采用同城和异地各建立一个灾难备份中心的方式解决。
本地容灾 是指在本地机房建立容灾系统,日常情况下可同时分担业务及管理系统的运行,并可切换运行;灾难情况下可在基本不丢失数据的情况下进行灾备应急切换,保持业务连续运行。与异地灾备模式相比较,本地双中心具有投资成本低、建设速度快、运维管理相对简单、可靠性更高等优点;异地灾备中心是指在异地建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。
本地机房的容灾主要是用于防范生产服务器发生的故障,异地灾备中心用于防范大规模区域性灾难。本地机房的容灾由于其与生产中心处于同一个机房,可通过局域网进行连接,因此数据复制和应用切换比较容易实现,可实现生产与灾备服务器之间数据的实时复制和应用的快速切换。异地灾备中心由于其与生产中心不在同一机房,灾备端与生产端连接的网络线路带宽和质量存在一定的限制,应用系统的切换也需要一定的时间,因此异地灾备中心可以实现在业务限定的时间内进行恢复和可容忍丢失范围内的数据恢复。
3、 两地 三中心
结合近年国内出现的大范围自然灾害,以同城双中心加异地灾备中心的 “两地三中心”的灾备模式也随之出现,这一方案兼具高可用性和灾难备份的能力。
同城双中心 是指在同城或邻近城市建立两个可独立承担关键系统运行的数据中心,双中心具备基本等同的业务处理能力并通过高速链路实时同步数据,日常情况下可同时分担业务及管理系统的运行,并可切换运行;灾难情况下可在基本不丢失数据的情况下进行灾备应急切换,保持业务连续运行。与异地灾备模式相比较,同城双中心具有投资成本低、建设速度快、运维管理相对简单、可靠性更高等优点。
异地灾备中心 是指在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。
两地三中心 : 是指 同城双中心 加 异地灾备 一种商用容灾备份解决方案;
两地 是指同城、异地;
三中心 是指生产中心、同城容灾中心、异地容灾中心。( 生产中心、同城灾备中心、异地 灾备 中心 )
4、 双活 数据中心
所谓 “ 双活 ” 或 “ 多 活 ” 数据中心,区别于传统数据中心和灾备中心的模式,前者多个或两个数据中心都处于运行当中, 运行相同的应用,具备同样的数据,能够提供跨中心业务负载均衡运行能力,实现持续的应用可用性和灾难备份能力, 所以称为 “双活 ” 和 “ 多 活 ” ;后者是生产数据中心投入运行, 灾备数据中心处在不工作状态,只有当灾难发生时,生产数据中心瘫痪,灾备中心才启动。
“ 双活 ” 数据中心最大的特点是 : 一、充分利用资源,避免了一个数据中心常年处于闲置状态而造成浪费 , 通过资源整合, “ 双活 ” 数据中心的服务能力是 翻 倍的 ; 二 、 “ 双活 ” 数据中心如果断了一个数据中心, 其 业务可以 迅速 切换到另外一个 正在 运行的数据中心, 切换 过程对用户来说是不可感知的。
在 “ 双活 ” 的模式中,两地数据中心同时接纳交易,技术难度很大,需要更改众多底层程序 , 因而在现实中,国内还没有 真正 “ 双活 ” 数据中心 的成功 应用 案例。
数据容灾技术选择度量标准
在构建 容灾 系统时,首先考虑的是结合实际情况选择合理的数据复制技术。 在选择合理的数据复制技术时主要考虑以下因素:
Ø 灾难承受程度 :明确计算机系统需要承受的灾难类型,系统故障、通信故障、长时间断电、火灾及地震等各种意外情况所采取的备份、保护方案不尽相同。
Ø 业务影响程度 :必须明确当计算机系统发生意外无法工作时,导致业务停顿所造成的损失程度,也就是定义用户对于计算机系统发生故障的最大容忍时间。这是设计备份方案的重要技术指标。
Ø 数据保护程度 :是否要求数据库恢复所有提交的交易 , 并且要求实时同步 ,保证数据的连续性和一致性, 这是备份方案复杂程度的重要依据。
对IT企业来说,传统的单数据中心,已不足以保护企业数据的安全。当单数据中心存储故障后,可能会导致业务长时间中断,甚至数据丢失。只做本地的数据冗余保护或容灾建设,已不能规避区域性灾难对企业数据的破坏。远程容灾保护数据及保障企业业务连续性成为了企业亟待解决的问题。另外,企业在远程容灾建设中,也面临网络链路租赁费用高昂和网络带宽不够的问题。
RTO (Recovery Time Objective,复原时间目标)是指灾难发生后,(从故障开始到恢复使用中间消耗的时间)从IT系统宕机导致业务停顿之时开始,到IT系统恢复至可以支持各部门运作、恢复运营之时,此两点之间的时间段称为RTO。比如说灾难发生后半天内便需要恢复,RTO值就是十二小时;
RPO (Recovery Point Objective,复原点目标)是指从系统和应用数据而言(数据恢复目标),要实现能够恢复至可以支持各部门业务运作,恢复得来的数据所对应时的间点。如果企业每天凌晨零时进行备份一次,当服务恢复后,系统内储存的只会是最近灾难发生前那个凌晨零时的资料。
根据以上两个简单的原则,企业不以对现有的数据系统作出,也可以按照既定的RTO及RPO要求,选购最适合企业数据中心的灾备方案。
RTO及RPO与方案售价有着密切的关系,然而完美的方案当然是RTO及RPO皆为零,表示当灾难发生后,系统立即恢复,而且完全没有数据丢失,可是其造价是非常昂贵的,而且也不一定有这个必要。
因此,最佳方案必需在RTO,RPO,维护及价钱多方面,都能达致平衡。尤其是中小企业,在资源紧拙的情况,应先好好了解对RTO及RPO的要求,然后再看看价钱,那就比较容易找到,适合企业的方案了。
各个企业的情况不同,要根据自己的情况选择合适的恢复机制。灾难恢复的目的是保证企业业务连续进行,因此无论采用RTO还是RPO,都要为这个核心服务。