目录
1、引入
1.1 需求
- 三大风险:数据丢失、数据破坏、业务中断。每小时业务中断导致损失以百万美元计
- 法规遵从:金融合规,等保3,安全隔离,两地三中心,高业务连续性
- IT运维:系统容灾,有备无患,简化IT运维工作,避免突出事件冲击
1.2 挑战
应用多样,管理不便:企业IT系统中运行的业务系统越来越多,需要作为关键业务进行容灾保护的应用也越来越多,常见的应用有Oracle、DB2、SQL Server、Exchange等,同时IT系统的云化趋势越来越明显,众多的虚拟机也需要提供保护,缺乏统一的管理系统。
流程复杂,耗时易错:不同应用的配置不同,恢复流程各异,配置难度大;业务切换、恢复需要专业人士操作,耗时易错:缺乏自动化的创建和部署流程。
黑盒运行,难以理解:传统业务切换、演练等操作流程都是设备内黑盒运行,缺乏可视效果,难于理解。
2、几个概念
2.1 HA
HA( High Availability,高可用)是指提供在本地系统单个组件故障情况下,能继续访问应用的能力。无论这个故障是业务流程、物理设施、IT软/硬件的故障。
最好的高可用性就是数据中心的一台机器宕机了,但是使用该数据中心服务的用户完全感觉不到。但一般数据中心的机器宕机了,在该机器上运行的服务故障切换(failover)一般都需要时间,从而导致客户会有感知。
HA 的关键指标是可用性,其计算公式是[ 1 - (宕机时间)/(宕机时间 + 运行时间)],我们常常用几个 9 表示可用性:
- 4 个9 : 99.99% = 0.01% * 365 * 24 * 60 = 52.56 分钟/年
- 5 个9 : 99.999% = 0.001% * 365 = 5.265 分钟/年
- 6 个9 : 99.9999% = 0.0001% * 365 = 31秒钟/年
对 HA 来说,往往使用共享存储,这样的话,RPO =0 ;同时往往使用 Active/Active (双活集群) HA 模式来使得 RTO 几乎0,如果使用 Active/Passive 模式的 HA 的话,则需要将 RTO 减少到最小限度。
2.2 容灾
灾难(Disaster)是由于人为或自然的原因,造成一个数据中心内的信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切换到备用场地运行。
灾难恢复(Disaster Recovery)是指当灾难破坏生产中心时在不同地点的数据中心内恢复数据、应用或者业务的能力。
容灾是指,除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点受到破坏时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达到更高的可用性,许多用户甚至建立多个冗余站点。
2.3 二者对比
维度 | HA(High Availability) | DR(Disaster Recovery) |
场景 | HA 是指本地的高可用系统,表示在多个服务器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能迅速切换到其它服务器上运行,即本地系统集群和热备份。 | DR 是指异地(同城或者异地)的高可用系统,表示在灾害发生时,数据、应用以及业务的恢复能力。 |
存储 |
HA 往往是用共享存储,因此往往不会有数据丢失(RPO = 0),更多的是切换时间长度考虑即 RTO。 | 异地灾备的数据灾备部分是使用数据复制,根据使用的不同数据复制技术(同步、异步),数据往往有损失导致 RPO >0;而异地的应用切换往往需要更长的时间,这样 RTO >0。 |
故障 | 主要处理单组件的故障导致负载在集群内的服务器之间的切换 | 应对大规模的故障导致负载在数据中心之间做切换 |
网络 | LAN 尺度的任务是 HA 的范畴 | WAN 尺度的任务是 DR 的范围 |
云 | HA 是一个云环境内保障业务持续性的机制 | DR 是多个云环境间保障业务持续性的机制 |
目标 | HA 主要是保证业务高可用 | DR 是保证数据可靠的基础上的业务可用 |
2.3 容灾和备份
备份:备份是容灾的基础,通常指在数据中心内,将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。
容灾:容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。
一般意义上,容灾指的是不在同一机房的数据或应用系统备份,备份指的是本地的数据或系统备份。通常说的灾备是将容灾与备份结合,即本地备份结合远程数据复制实现完善的数据保护。
一般所说的备份采用备份软件技术实现,而容灾通过复制或镜像软件实现,两者的根本区别在于:
- 备份软件处理后的数据格式不一致,必须恢复后才可使用,而复制或镜像软件处理后的数据格式不发生变化,直接挂载给主机即可使用。
- 两者的数据保护的周期不一致,复制或镜像的时间周期更短。
- 一般备份为数据保护的最后一条防线,偏向于归档这个层面更多。
2.4 关键指标RTO和RPO
- RPO(Recovery Point Objective)代表了当灾难发生时允许丢失的数据量。
- RTO(Recovery Time Object )代表了系统恢复的时间。
- RPO 与 RTO 越小,系统的可用性就越高,当然用户需要的投资也越大。
3、容灾系统概述
3.1 系统级别
级别 | 定义 | RTO | TCO |
数据级 | 通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏。 在数据级容灾方式下,所建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。在数据级容灾这个级别,发生灾难时应用是会中断的。 数据级容灾的恢复时间比较长,但是相比其他容灾级别来讲它的费用比较低,而且构建实施也相对简单。 数据源是一切关键性业务系统的生命源泉,因此数据级容灾必不可少。 | RTO 最长(若干天) ,因为灾难发生时,需要重新部署机器,利用备份数据恢复业务 | 最低 |
应用级 | 在数据级容灾的基础之上,在备份站点同样构建一套相同的应用系统,通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,这样就使系统所提供的服务是完整的、可靠的和安全的。 | RTO 中等(若干小时) | 中等。异地可以搭建一样的系统,或者小些的系统。 |
业务级 | 全业务的灾备,除了必要的 IT 相关技术,还要求具备全部的基础设施。其大部分内容是非IT系统(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。 | RTO 最小(若干分钟或者秒) | 最高 |
3.2 容灾建设等级
3.3 容灾解决方案
4、容灾方案架构
4.1 基本框架
4.2 容灾设计模式:同步、异步结合使用
容灾模式 | 可靠性方案 | 灾备恢复 | 数据备份需求 |
双活 | 集群+负载均衡 | 自动 | 实时同步复制(<100KM) |
热备份
| 集群(cluster) | 自动 | 实时同步复制(<100KM) |
暖备份 | 人工干预 | 手动 | 异步复制(>100KM) |
冷备份 | 人工强干预 | 手动 | 同上 |
4.3 容灾方案
(一)主备容灾方案
容灾系统管理可视化: 支持容灾管理软件部署、调测一键式 支持容灾演练和切换一键式,协助完成定制脚本工具能力,便于管理和恢复。
(二)两地三中心(3DC)容灾方案
容灾建设周期短,交付风险低,容灾建设周期从10个月缩短到7个月,缩短30% 多厂商配合有效管理,缩短项目交付周期 多业务多应用的有效评估与分析,保障容灾系统快速建设
(三)双活容灾方案
双活容灾去网关化,高效实施 业务级“A-A”高可靠,数据中心级故障业务不中断,7*24小时在线 双活存储层无虚拟化网关,减少故障点,简化实施与调测。
(四)阵列复制容灾方案
支持一对一容灾或多对一集中容灾,多分支机构数据独立存放,需要建立统一的容灾系统,对各个分支机构进行统一容灾保护。 支持多达31个分支机构;支持同步/异步复制方式,根据各个分支特点灵活选择,统一管理各分支容灾存储系统;不同级别阵列可互通复制,降低TCO,支持灵活在线添加/撤除分支站点 结合快照功能,可实现数据的连续保护。容灾资源共享,可大大节约成本。
(五)同城应用级容灾(物理机模式)
应用场景为物理机模式(小型机、X86服务器),两数据中心距离 <80KM ,应用自动切换,快速恢复业务。实现本地高可用和异地应用级容灾,具有存储开放性,支持异构存储 集群节点可任意组合(集群内主机总数量<=64);
(六)云计算下的灾备模式
生产中心与容灾中心独立部署云管理平台(两朵云),设置同步策略,定期远程复制生产中心的云管理数据和业务数据(VM)到容灾中心。用户在业务规划时,可根据实际需求,在存储上划分两种LUN:保护LUN和未保护LUN,将需要容灾的VM创建在保护LUN上,并只对保护LUN配置阵列复制,以节省容灾中心存储空间的需求。当生产中心发生故障时,容灾中心通过容灾管理软件一键式恢复虚拟机。