IT系统容灾及相关知识概述
1、什么是容灾
容灾是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如地震、停电、火灾、洪灾等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。容灾可分为本地容灾、异地容灾、云容灾。需要注意的是,集群等确保系统可用性的冗余方案,不等于容灾。在行业应用中,部分专业人士也容易混淆,导致集群系统出现故障时,发生大面积业务中断服务的情况,给组织带来经济和形象方面的损害。
满足容灾的三个基本条件:
- 一是系统中的部件、数据都具有冗余性,当其中一个系统发生故障停止服务时,另一个系统能够继续提供服务;
- 二是两个系统之间要相隔一定距离,如50公里左右,可提高容灾系统的抗风险能力;
- 三是容灾系统在数据复制生命周期中,数据具备一致性、可用性和可恢复性。
从其对系统的保护程度区分,容灾系统可分为数据级容灾、应用级容灾和业务级容灾。
- 数据级容灾(常用):指通过建立异地容灾中心,做数据的远程备份,在灾难发生后要确保原有的数据不会丢失或者遭到破坏。数据级容灾在发生灾难时应用会中断,且业务恢复的时间比较长。但是相比其他容灾级别费用比较低,而且构建实施也相对简单。目前,公积金管理中心、医院等三级等保单位在建设容灾中心时,出现了联合异地同性质机构共同建设容灾中心的方案,即双方在本地的数据中心,可互为对方的容灾中心。这样可极大节省容灾中心的建设成本和运维成本。
- 应用级容灾:指在数据级容灾基础上,在异地容灾中心构建一套相同的应用系统,通过同步或异步复制技术进行数据的实时复制,保证关键应用在允许的时间范围内恢复运行,尽可能减少故障带来的损失,让用户基本感受不到故障的发生。应用级容灾是一个复杂的IT工程,不仅涉及到各类切换技术,还会涉及到人员的调配等,所以建设和运维成本相当高,通常只有银行、证券等关键机构因业务和监管要求,才会进行应用级容灾体系建设。以 SWIFT(环球同业银行金融电讯协会)为例,作为一个国际银行间非盈利性的国际合作组织,它的总部设在比利时的布鲁塞尔,同时在荷兰阿姆斯特丹、美国纽约、瑞士的苏黎世分别设立数据交换中心,另外在亚太香港与欧洲阿姆斯特丹设立生产控制中心即 ECC,形成全球“三地三中心+两个控制中心”的高可用多活部署格局,值得我们借鉴。
- 业务级容灾:指所有核心业务的容灾,除了IT网络设备齐全,还要求场地、电力等基础设施建设完善,是所有容灾等级中最高的。随着组织数字化转型和信息化的发展,多中心生产的多活模式正在成为行业趋势,如国有大型银行可在全国建设多个数据中心,每两个中心互备,实现业务级容灾。同时,为了避免过度建设数据造成资源浪费,增加数据中心的电力负担,对于中小银行等机构,资产规模在五千亿以下的没必要自建数据中心。根据测算,一般资产规模在一万亿以下的银行,自建数据中心的成本永远高于租赁成本。在美国丹佛有一个八万平方米的数据中心,运行的服务器基本上都是中小银行租赁的。这种集约化智能化运维即节省成本又节能环保的模式,国内银行业可以借鉴。
2、容灾相关知识
2.1 什么是高可用
高可用指通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性,是企业防止计算机系统因故障停机的最有效手段。
在国内,基于高可用系统中的两台服务器的热备(或高可用)使用较多,因此双机热备常被人提起。双机热备按工作中的切换方式分为:主备方式(Active-Standby方式)和双主方式(Active-Active方式)。
- 主备方式是一台服务器处于某种业务的激活状态(即 Active 状态),另一台服务器处于该业务的备用状态(即 Standby 状态)。主备方式也称为“单活”,以共享存储为基础,在数据一致性的前提下,当主生产中心工作时,备生产中心处于非工作状态,当主生产中心发生故障时,备生产中心无缝接管,保障业务连续性。
- 双主方式是两个生产中心同时在工作,且根据预先设置的算法规则,控制台为两个中心分配不同比例的工作任务。如第一个中心分担60%左右的任务,第二个中心分担40%左右的任务,确保当其中一个中心发生故障业务停止时,另外一个中心仍能处理业务。双主方式也称为“双活”,是一种实现系统高可用冗余常见的方案,但成本一般较高,且设备同构性要求高,如出现逻辑错误、病毒攻击等安全事件,可能无法恢复数据,造成业务停止,因此通常需要配备备份策略。
特别说明的是,行业对于双活的定义,并没有严格的界定,也有争议。例如不是同步复制技术就是双活,异步复制技术就不是双活。从技术逻辑讲,双活可以是底层没有数据交叉的双写;也可以是一边可写,另一边可读。不一定两边都是双写才能称为双活。
另外,除了单活和双活的灾备架构,现场部分行业出现了同城或异地多活的方案,如互联网电商、银行等。银行多活的模式目前较流行的是两两双活,如A-B-C可组成(BA、BC、AC)。不管是同城多活,还是异地多活,建设成本和运维成本都是巨大的,不是一般的用户能够承担的,这个需要看行业监管要求,也要契合组织的业务实时性需求。
2.1.1 容灾与双活区别
双活是系统冗余的范畴,容灾则包括在建立灾备系统时,需要涉及到多种切换技术,如SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。通常来讲,容灾的建设成本要比双活低,数据丢失风险要比双活低。
2.2 什么是快照
快照指对指定数据集合的一个完全可用拷贝。该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像,其作用主要是能够进行在线数据备份与恢复。快照技术被广泛应用于CDP技术、CDM技术等产品中。
2.3 什么是等级保护
等级保护也称“等保”,即网络安全等级保护标准,是网络安全从业者开展网络安全工作的重要指导体系和制度。容灾等级保护根据用户的单位属性进行划分,如某医院为三级等保单位,其容灾方案需要按照等保三级标准进行建设。
等保标准具有很强的实用性,不仅是监管部门合规执法检查的依据,也是国内诸多网络信息安全标准制度的重要参考体系架构,是行业主管部门对于下级部门网络安全建设的指引标准的重要依据和参考体系。其中,《网络安全法》对此有明确的规范:
- 第二十一条:国家实行网络安全等级保护制度。网络运营者应当按照网络安全等级保护制度的要求,履行安全保护的义务。保障网络免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改。
- 第二十五条:网络运营者应当制定网络安全事件应急预案,及时处置系统漏洞、计算机病毒、网络攻击、网络侵入等安全风险;在发生危害网络安全的事件时,立即启动应急预案,采取相应的补救措施,并按照规定向有关主管部门报告。
- 第五十九条规定:网络运营者不履行本法第二十一条、第二十五条规定的网络安全保护义务的,由有关主管部门责令改正,给予警告;拒不改正或者导致危害网络安全等后果的,处一万元以上十万元以下罚款,对直接负责的主管人员处五元以上五万元以下罚款。 第七十六条定义了网络运营者是指网络的所有者、管理者和网络服务提供者。
3、总结
综合前面所述,可以通过灾备应用场景图了解整个灾备应用的大概。进入新时代,随着数字业务的发展,以及全球用户对数据安全的重视,灾备行业的发展潜力将会显现,应用场景将会愈加丰富多样,灾备边界也会越来越宽,灾备将不再是作为第二存储划归到存储领域。