某银行核心系统基于VPLEX+RecoverPoint架构实现 本地双活及容灾实践经验

某银行核心系统基于VPLEX+RecoverPoint架构实现 本地双活及容灾实践经验

https://www.talkwithtrend.com/Article/252003

一、概述

IT 系统作为银行业务的重要支撑平台,随着银行业务的发展,业务量日益增长,系统数量也相应增加,对 IT 系统的要求也越来越高,对 IT 系统的建设也需要更加完善。如何确保服务提供的可靠性与连续性,提升银行整体服务水平,是银行信息系统建设面临的重要课题之一。

作为 2010 年通过改革重组并经中国银保监会批准成立的某银行,为了满足业务的发展需求和银保监等机构的监管要求,必须要根据自身业务的特点、模式和未来的发展趋势,完善其数据中心,同时建设同城灾备中心和异地灾备中心,持续提高业务的连续性服务能力。

另外,鉴于某银行 IT 系统的特点,即采用的数据集中存放、集中处理的大集中模式,这样的模式虽然有利于加强银行账务监管、数据共享、降低运营成本,同时也有效保障系统与数据的完整性,但这种集中模式存在着一定弊端:如果一旦生产中心核心系统或集中存储等重要系统或设备发生故障,将会影响全行的所有业务,势必会带来一定的经济损失和声誉影响。这就要求银行必须建立稳定可靠的生产中心,尽可能地实现核心系统及其他系统的高可靠运行,同时还应有完善的容灾系统来抵御这种突发的风险事件,以提高银行业务系统持续服务的能力,保证银行业务的连续性运营。

二、需求分析

随着某银行业务规模的不断壮大和业务产品的快速发展,对其 IT 运营平台提出了更高的要求,特别是在业务连续性能力及大规模突发事件的应急恢复能力方面,为满足某银行发展战略目标,某银行需要在既有的灾备基础上,进一步完善“两地三中心”灾难备份系统的建设,同时加强生产中心包含核心系统在内的系统建设,实现核心系统、应用数据库系统的本地双活,以提升 IT 系统的业务连续性运行能力。

生产中心建设目标:建成稳定可靠的 IT 系统,实现核心存储系统的本地双活、核心系统与应用数据库系统的本地双活,即核心系统 INFORMIX 数据库的本地双活,应用系统 ORACLE 数据库基于 RAC 集群的双活。

同城灾备中心建设目标:实现所有重要系统的应用级容灾及所有系统的数据级容灾,同城中心的数据库系统与生产中心实现 A+B ( Active+Backup )的主备模式,数据的一致性采用基于存储复制的方式实现,同时灾备技术指标 RPO 尽可能地接近于 0 、 RTO 小于 2 小时,即优于《信息安全技术信息系统灾难恢复规范》中等级 5 的要求,同时实现重要数据的 CDP 保护,以及满足部分系统跨中心的应用级双活

异地灾备中心建设目标:实现数据级容灾,即实现生产中心的所有数据在异地中心的容灾,同时通过基于数据库层面的复制技术与 Vmware 虚拟化技术实现柜面业务与自助设备业务的应用级灾备。

常用术语解释:
RPO : Recover Point Objective ,复原点目标
RTO : Recover Time Objective ,复原时间目标
CDP : Continuous Data Protection ,连续数据保护
CRR : Continuous Remote Replication ,持续远程复制

三、基于 VPLEX+RecoverPoint 选型经验

(一)技术产品选型

根据需求分析、市场调研及相关公司的技术交流,目前市面上常用的可实现本地存储数据双活的产品主要的 DELL EMC 公司的 VPLEX 及 IBM 公司的 SVC 技术产品,根据测试体验、市场占有率及用户使用感念,拟选择 DELL EMC 公司的 VPLEX ,其兼容性优于 IBM 的 SVC 产品。

对于容灾系统建设的技术产品,由本着使用简便、稳定可靠、易于实现、操作快捷、横向扩展等原则,同时要求在实施过程不影响现有生产系统的正常运行,目前中小银行在用的技术产品主要有 VERITAS 的 FS 、飞康的 IPSTOR 、 DELL EMC 的 RecoverPoint ,根据 POC 测试及结合生产与同城中心使用的存储产品,选用 DELL EMC 的 RecoverPoint 能很好地满足上述要求。

对于数据双活的存储产品选型,根据以往的使用经验,以及为了 VPLEX 更好的兼容性,继续选择 DELL EMC 的产品,即选择 DELL EMC 的 VAMX 系列存储。

因此,结合数据库的复制技术及 DELL EMC 的 VPLEX + RecoverPoint 的组合是大多中小银行在双活建设与容灾建设中常采用的技术方案。

对于异地容灾中心,由于带宽资源的限制,为实现数据级容灾的需求,选用 DELL EMC 的 Data Domain 的存储,将生产中心的所有数据库通过备份软件备份保存至 DELL EMC 的 Data Domain 的存储介质中,借助 Data Domain 的复制功能实时传输到异地的 Data Domain 中,实现异地数据级容灾目标。

以下为 DELL EMC 的 VPLEX 及 RecoverPoint 的技术特点的简介。

1 、 VPLEX 技术特点
VPLEX 系列主要有两个产品: VPLEX Local 和 VPLEX Metro 。

• VPLEX Local 支持本地联合 , 可跨异构阵列提供简化的管理和无中断数据移动。
• VPLEX Metro 提供分布式联合能力,扩展了同步距离内两个位置间的访问能力。 VPLEX Metro 利用 AccessAnywhere 支持跨远距离共享,可实现跨中心的存储数据访问和移动。

图一

VPLEX 使用一个独特的群集体系结构,让金融业用户可以消除数据中心的物理界限,并允许多个数据中心的服务器具有对共享块存储设备的读 / 写访问权限。 VPLEX Local 配置定义为有一、二或四个 VPLEX 引擎,它们通过其充分冗余的引擎间结构互连集成到单个群集中。此群集互连功能支持在线添加 VPLEX 引擎,因而为 VPLEX Local 和 VPLEX Metro 配置提供了优异的可扩展性。 VPLEX 群集节点之间以及跨 VPLEX Metro 配置的所有连接是充分冗余的,确保了针对单点故障的保护。 VPLEX 群集可通过添加更多引擎进行纵向扩展,通过将群集连接到 VPLEX Metro 中进行横向扩展(两个 VPLEX Metro 群集在城域网距离内连接起来)。使用 VPLEX Metro 进行跨物理数据中心阵列镜像可以有效减低灾备系统切换和回切时的复杂 LUN 管理操作。

VPLEX 是一个用于联合 DELL EMC 和非 DELL EMC 存储的解决方案,以可扩展、高可用的处理器引擎为基础, DELL EMC VPLEX 设计为可从小型配置无缝扩展到大型配置。

2 、 RecoverPoint 技术特点

RecoverPoint 数据保护设备提供了易于配置和安装的模块:本地恢复模块( RecoverPoint CDP )和远程恢复模块( RecoverPoint CRR )。这些模块运行在同一套 RecoverPoint 机器上,既降低成本,又便于管理,也可以基于用户的特殊需要,分开或者紧密部署,达成无可匹敌的、端到端的保护。下图描述了其主要功能特点。

图二

RecoverPoint 在容灾系统建设中的应用原理是实现生产中心与容灾中心间存储间 LUN 的复制,即生产中心端(一般为源端)存储 LUN 通过 SAN 或 IP 方式复制到容灾中心端(一般为目的端),正常复制情况下,源端存储的 LUN 是可用的,目的端存储的 LUN 为不可用的,只有在 RecoverPoint 进入“测试拷贝”状态时,目的端的 LUN 才可用,此状态下数据复制不会被中断,还是正常进行,另外,通过进入相应的功能状态下,还可实现目的端与源端的切换,即实现数据的反向复制。

(二)架构设计选型

在确定了双活应用及容灾系统建设的技术产品选型后,某银行也采用“两地三中心”的架构,对“两地三中心”的建设目标及架构布局规划为:生产中心通过 VPLEX 实现存储数据双活,并结合数据库工具实现本地双活;同城中心采用 RecoverPoint (简称 RP )进行存储间的数据复制,以实现容灾数据与生产中心的一致;异地中心实现数据级容灾,通过集中备份软件 Networker 及 DELL EMC 的 Data Domain 的存储介质并借助 DD 的复制功能传输至异地中心的 Data Domain 的存储中,以实现数据异地容灾。

下图为两地三中心的架构设计简图

图三

四、实践技术方案及经验

针对目前生产系统的现状情况,并考虑未来跨中心应用双活的需求,并本着从简至繁、从主到次的原则,从数据级至应用级,逐步实现核心类本地双活,在条件成熟后,再延伸至跨中心的应用级双活,再至全双活的建设方案,充分发挥“两地三中心”格局的优势。。

1、 基于 VPLEX Local 本地数据级存储双活的实施

使用 VPLEX Local 进行跨异构或同构阵列镜像可以有效整合数据中心资源、防止阵列单点故障,提供平滑的阵列设备故障切换。

生产中心的存储采用集中存储配置方式,生产中心配置了两台 DELL EMC 的高端存储 VMAX100K 及两台全闪存储 VMAX250F (如图三),为了提高主机系统访问存储的性能,在生产中心配置了两台高端的 SAN 光纤交换机,构建生产中心 SAN 的核心架构,并将承载核心系统、数据库系统运行的小型机及应用系统的 X86 服务器与核心存储、 VPLEX 直接接入核心 SAN 光纤交换机,通过 zone 的配置实现主机系统在 VPLEX 设备中来间接访问存储。

方案实施将利用 DELL EMC VPLEX 来进行本地 DELL EMC 存储的数据双活,即通过 VPLEX Local 功能将两台 VMAX100K 组成一个镜像组,将两台 VMAX250F 组成一个镜像组,从而保证两组中两台本地存储互做备份,任何一台存储出现故障都不会导致业务停运或者数据丢失。具体方案及实现过程如下:

1.1 、生产中心核心 SAN 架构图

如下图所示,分别由 VMAX100K 与 VMAX250F 通过 VPLEX Local 构建成的两组双活存储,承担着生产中心核心数据库、应用数据库及虚拟化平台的系统运行,任何一组存储中的一台出现故障都不会影响生产中心的运行。

图四

1.2 、方案实施

为了实现两组存储间的镜像保护,需将主机访问存储的方式变更为主机访问 VPLEX ,即将四台 VMAX 存储全部由 VPLEX 来管理。具体方法:在存储中划分的 LUN 不直接 MAPPING 给主机,而是 MAPPING 给 VPLEX ,再在 VPLEX 按照 1 : 1 的方式封装且不再进行重新划分,然后依次进行 Claim storage--Create Extends--Create Device--Create Virtual Volume 等操作后,最终将存储划分后的 LUN 生成可被主机使用的 Virtual Volume ,同时在 VPLEX 的 Initiators 中注册主机的 HBA 卡,并标记相应的名称,然后创建相应的 Storage View ,将对应的 Port 、 Initiator 及 Virtual Volume 加入到该 Storage View 中,就完成了在 VPLEX 中为主机划分 LUN 的操作,即实现了将存储的 LUN 分配给主机使用的操作,为了实现存储数据的双活,分别将组内对应的另一存储分配过来的 LUN ,经 VPLEX 封装转换后,再在 VPLEX 中进行本地镜像 (Local Mirror) ,从而实现核心系统数据及应用系统数据的本地存储双活,进而提升生产系统运行的可靠性、稳定性,确保重要数据的安全。

下图为 VPLEX 的管理界面。

图五

2、 核心系统及其他数据库的本地双活实施

在实现了本地存储系统的双活后,为了实现生产中心核心系统的双活,必须在数据库层面、应用层面也必须进行双活部署。其实施方案:

2.1 、应用层面

由于应用系统基本上采用 B/S 架构,双活部署可以采用中间件的集群模式,也可心采用基于 f5 的负载分发设备来实现,结合现状情况,基本采用 f5 或 RADWARE 的负载均衡设备来实现,即每个应用部署两个或多个节点,通过负载均衡设备来进行应用分发,从而实现应用的多节点运行。对于 C/S 架构的核心系统不能采用中间件的集群模式来实现应用双活,只能通过负载均衡设备来实现应用层面的双活。

在生产与同城中心大二层的网络模式下,应用双活不仅在生产中心可实现,而且可拓展至跨中心部署实施,实现“准双活”的同城容灾模式,可进一步提升容灾技术 RTO 。

2.2 、数据库层

对于核心系统的数据库双活的实现,由于核心系统使用的 Informix 数据库,不具备 ORCALE 数据库系统的 RAC 功能,故通过采用 Informix 数据库的高可用模块(如 HDR 、 RSS 、 SDS )来实现类似的双活。基本方案:在生产中心通过 Informix 数据库的 HDR 分别构建核心系统数据库 Informix 的主库( Primary )与备库( Secondary ),主、备库之间在 HDR 中配置为同步方式的实时复制,根据 HDR 的特点:备库只能为“ Read Only ”状态,即不具有写功能,则主要用于查询交易,其他交易在主库中完成,实现交易分发控制通过修改核心应用系统来实现,将查询交易全部分发至备库,其他交易则分发至主库,这样,实现了核心系统的本地双活。通过该方案不仅充分利用了核心系统的主机资源,而且提升了核心系统的运行性能及核心系统的可靠性,同时在主库失效时,备库可在短时间内接管主库,从而确保数据库服务不中断,业务不受影响。

对于其他应用数据库,则采用 ORACLE 数据的 RAC 模式来进行双活部署,从而有效实现数据库的本地双活。

3、 基于 RecoverPoint 的同城应用级容灾

容灾建设是商业银行 IT 系统建设的重要工作之一,而容灾建设的关键是如何确保灾备中心与生产中心数据的一致性、完整性,容灾技术方案的选择则是容灾建设工作的重中之重。某银行在充分了解市面上现有的成熟容灾技术方案后,并吸取同业的成功经验,最终选定采用 DELL EMC 的 RecoverPoint 产品及该产品的 CRR 功能来进行同城灾备的建设,使用该产品可确保同城容灾技术指标 RPO 、 RTO 远优于《信息安全技术信息系统灾难恢复规范》中等级 5 的技术要求,其实施方案为:

3.1 、容灾的系统架构图

如下图所示,生产中心与同城灾备中心的系统部署采用相同的架构。

图六

3.2 、方案选择与实施

为了少走技术弯路,经过与 DELL EMC 的反复交流,某银行采用 DELL EMC 成熟的基于 RecoverPoint 的存储复制技术方案来进行同城容灾系统的建设,同时为提升容灾系统接管生产系统运行的可靠性,同城灾备中心与生产中心采用相同的架构部署,并且原则上使两中心间系统的资源配置比达到或接近 1 : 1 的配比,操作系统版本、数据库类型与版本也保持与生产中心一致,这样只需将生产中心存储的数据复制到同城容灾中心存储中即可。

图七

实施方法:在 RecoverPoint 中,将生产中心核心系统的对应的存储 LUN 与容灾中心核心系统对应的存储 LUN 进行一对一的配对复制,其复制方向既可以从生产向容灾中心复制,即正向复制(正常情况下,为正向复制),也可以从容灾中心向生产中心复制,即反向复制。反向复制一般用于容灾接管生产系统运行后才使用,或者进行真实的容灾切换演练才使用。实现正反向复制是在 RecoverPoint 的管理界面的“数据保护”功能框下依次执行“测试拷贝” - “恢复生产”,执行完成后,存储的数据复制方向就发生了改变,注意:执行该操作时,一定在两中心系统停运的条件下,否则不能执行该操作。(如下图)

图八

通过 DELL EMC 的 RecoverPoint 建设的容灾系统,建设成本低,容灾指标高,其容灾技术指标可达到或接近《信息安全技术信息系统灾难恢复规范》中等级 6 的技术要求,而且切换操作简单,接管生产应用时间短。

五、实践效果与案例分享

科学合理的技术架构,不仅给工作上带来便利,而且还会产生可观的经济效益及社会效益,下面是基于 VPLEX+RecoverPoint 架构在数据中心建设中具体运用的效果。

(一)基于 RecoverPoint的容灾建设的典型实践应用案例

1、在数据中心迁移中的应用

通过 DELL EMC 的 RecoverPoint 设备构建的容灾系统,不仅容灾技术指标满足容灾系统建设的要求,而且在数据中心迁移中也能发挥明显的优越性。

2017 年,某银行需要进行生产中心的搬迁,作为数据中心的 IT 人员都知道,数据中心搬迁最大的难点是数据的迁移,如何在尽可能短的停业窗口时间内,将生产中心系统迁移至新中心运行,是一项风险性大、技术难度高的系统工程。由于在前期建设中采用了 DELL EMC 的 RecoverPoint 设备的容灾技术,利用其 CRR 技术功能,实现了两中心间的存储数据复制。通过变通使用,将新中心通过 DELL EMC 的 RecoverPoint 设备构建为容灾中心,即将新中心与现有生产中心存储通过 DELL EMC 的 RecoverPoint 实现远程实时复制,这样现有中心存储中的数据将全部复制到新中心的存储中,使得数据的完整性、一致性得到有效保障。在正式切换时,将现有生产中心的所有业务系统停运,两中心间基于存储的数据复制随着业务的停运也将实现数据的完全一致,然后在新中心的 RecoverPoint 中执行“停止数据传输”,这样,原有生产中心保存在存储中的数据全部复制到新中心的存储中,再启动新中心的数据库与应用系统,同时再次启动原生产中心的数据库与应用系统,经过技术与业务层面的两中心间数据的比对,比对结果证明两中心相应系统的数据完全一致。通过这种方式,高效地实现了生产中心的数据迁移,并且大大缩短了因生产中心迁移而导致的业务停运时间,减少了对客户的影响。

2、在容灾系统真实切换演练中的应用

根据监管要求,商业银行的重要业务系统每三年必须完成一次业务部门参与的真实切换演练,为满足监管要求,该行在往年完成了除核心系统在内的其他重要系统的真实切换演练后, 2019 年拟将包含核心系统在内的多套系统进行真实切换演练,鉴于 DELL EMC 的 RecoverPoint 优越的切换功能,再借助 VERITAS 的 BCS 系统的容灾管理功能,在系统切换演练日,通过 BCS 系统管理平台的“单键”切换功能,在数分钟时间内,实现了核心系统在内的多套系统由生产中心向容灾中心的切换,并接管了生产系统的运行,恢复了业务的正常交易。

对核心系统进行真实切换演练,并在切换后运行 24 小时,再成功回切,这在所有城商行中是为数不多的一家,该行凭着能进行包含核心系统在内的容灾实切演练,在监管部门的评级中获得了很好的评价,为该行赢得了可观的社会效益。

3、历史数据追溯及生产数据紧急恢复

基于 DELL EMC 的 RecoverPoint 的存储数据复制实现了数据的 CRR (连续远程复制),并且根据数据的重要程度设定了数天至一个月的保护窗口期限,这样在容灾中心可以实现将数据恢复至保护窗口时间内的任一时间点,利用该功能就可以追查生产环境中已过往的数据,或者将生产环境误删除的数据进行快速找回与恢复。如 2019 年的某一日,在对某重要系统行数据清理时,因操作不当,误删除了部分重要数据,导致该重要系统及相关联系统的部分交易不能正常进行,由于备份不能做到实时进行,因此在生产环境中已无法恢复误删除的数据,此时借助 RecoverPoint 对数据的 CRR 复制保护功能,通过在容灾中心将该系统的存储复制数据回滚至误操作前的时间点,再在容灾中心启动该重要系统的数据库,很容易地就找回了误删除的数据,将误删除的数据恢复至生产环境后,很快就恢复了该重要系统的相应业务。

另外,还经常利用 RecoverPoint 的 CRR 功能,在容灾中心回滚核心系统的数据库,追寻生产中心中无法查找的异常数据,为解决生产中心的某些问题提供了重要保障。

(二)VPLEX在存储数据迁移的应用

DELL EMC 存储虚拟化 VPLEX 解决方案用于在金融行业数据中心内、跨数据中心及在数据中心之间进行信息虚拟化、访问、共享和迁移。它是世界上第一个同时提供本地联合和分布式联合的平台。

使用 VPLEX 实现无感知的存储间数据迁移

如某银行生产中心使用的 DELL EMC VMAX100K 存储由于剩余容量的不足,同时为了有效缩短核心系统的批处理时间,拟在生产中心购入 DELL EMC 的全闪存储 VMAX250F ,并将运行在 VMAX100K 中的核心系统数据迁移至全闪存储 VMAX250F 中,要求不能停止核心系统的运行,即不中断业务。

为了满足该需求,该行的系统管理人员巧妙利用了 DELL EMC 的 VPLXE 的 Local Mirror (本地镜像)功能,将 VMAX250F 存储也由 VPLEX 进行管理,然后在 VMAX250F 中也划分出与 VMAX100K 相同的 LUN ,再将两存储中相应的 LUN 进行 Local Mirror , Mirror 完成后,再将 VMAX100K 的 LUN 解绑出来,这样就在核心主机系统无感知的情况下将 VMAX100K 存储中的核心系统数据整体地迁移至 VMAX250F 中,实现了无中止业务运行情况下的数据迁移。在将将核心系统数据迁移至全闪存存储后,有效提升了批处理的效率,缩短了批处理的时长,减少了批处理对业务的影响。

对于其他需迁移的系统数据,也采用了相同的数据迁移方式。这个应用实践凸现了 VPLEX 在数据中心内基于存储间的数据迁移的优越性,并给数据迁移工作带来极大的便利性,同时, VPLEX 不仅支持同构存储间的数据迁移,而且还支持异构存储间的数据迁移,具有很好的兼容性与横向扩展性。

基于 VPLEX+RecoverPoint 架构技术,在多家中小银行的核心系统双活及容灾建设中有着广泛的使用案例,并且某些银行开始了跨中心全双活建设的尝试。相信在以后的数据中心建设中,随着生产中心与容灾中心的通讯链路的延迟时间越来越小、稳定性越来越高,该银行也会进行该方面的尝试,欲进行跨中心双活建设的尝试,首先需将现用的 VPLEX Local 升级至 VPLEX METRO ,以实现存储的跨中心双活,在此基础上,再采用 ORACLE 数据库的 Extend RAC 的部署方案,真正实现跨中心的应用双活。

六、实践总结

VPLEX 是一款非常适合跨数据中心访问的存储硬件产品,可用于数据中心所有存储资源( EMC 及第三方存储)提供集成的访问,甚至还可实现跨中心存储资源的集成访问。 RecoverPoint 也是容灾系统建设中的一款重要常用的技术产品,不仅可用于一对一的数据复制模式中,而且还可用于一对二甚至一对多的数据复制模式中,特别适合于多中心间的容灾数据复制。

基于 VPLEX+RecoverPoint 架构技术,在多家中小银行的核心系统双活及容灾建设中有着广泛的使用案例,对于核心系统使用 ORCALE 数据库的某些银行,通过 VPLEX 平台开始了跨中心全双活建设的尝试,相信在以后的数据中心建设中,在确保生产中心与容灾中心的通讯链路的稳定性、延迟性得到可靠保障的情况下,大多中小银行可能都会迈入跨中心双活建设的尝试行列。但根据 VPLEX 的技术特点,对于采用 VPLEX Local 产品建设的数据中心,不能进行跨中心双活的建设,首先需将现用的 VPLEX Local 升级至 VPLEX METRO ,以实现存储的跨中心双活,在此基础上,再配合 ORACLE 数据库的 Extend RAC 技术的部署方案,可实现跨中心的全双活应用。

posted @ 2021-04-12 12:29  耀阳居士  阅读(995)  评论(0编辑  收藏  举报