Security+ 11. 保障业务连续性
11. 保障业务连续性
11.1 业务连续性和灾难恢复
- 业务连续性(business continuity):也称为操作连续性(Continuity of operations/COOP),是一组能使组织在面临某些不利事件时,保持正常业务操作的流程。
- 灾难恢复(Disaster recovery):是业务连续性一个主要组成部分,在灾难发生后,修复,重建,恢复和更换系统,人员和其他资产。
- 恢复团队:在发生内部或外部关键业务流程中断时,被指派执行恢复程序并控制恢复操作的团队
11.1.1 灾难恢复过程
- 通知利益相关者
- 开始紧急行动:任命一名事故管理员负责控制情况并确保人员安全。
- 评估损害
- 评估设施:当前设施是否能继续成为主要运营点的能力进行评估。
- 开始恢复过程
11.1.1 恢复顺序(order of restoration)
- 决定在恢复工程中优先恢复哪些类型的系统,如:
恢复一个洪灾过后的数据中心
1. 恢复干净、干燥的环境
2. 恢复电力
3. 恢复内部联网功能
4. 恢复存储和处理服务器
5. 恢复入站和出站网络连接
6. 为受影响的办公区恢复清洁干燥的环境
7. 为受影响的员工恢复工作站环境
8. 为受影响的员工恢复办公桌/隔间环境。
11.1.2 恢复站点
- 热站:host site指完整配置的备用网络,灾难发生后迅速上线
- 温站:warm site指在正常情况下处理休眠状态或执行非关键功能的站点,如果需要迅速转换为关键操作站点。
- 冷站:cold site指一个预确定的备用地点,可在灾难发生后重建网络。
- 恢复站点源:可以独立拥有或与一个或多个合作组织建立业务关系,以便在任何一方发生灾难时,共享恢复站点空间。
- 安全恢复数据:需要指定一位受信任的管理员来监督恢复过程,并记录恢复流程。
11.1.3 备份类型
- 快照与备份:快照记录存储卷在某个时间点上的状态,通常是存在于同一个卷上的状态。备份指多个外部位置中数据的真实副本。
- 完整备份(full backup):备份过程慢,但恢复丢失数据时,完整备份快速可靠
- 差异备份(differential backup):备份上次完整备份以来更改过的所有选定文件。恢复丢失数据时,必须恢复上次的完整备份和最新的差异备份,省存储空间,但恢复速度较慢。
- 增量备份(incremental backup):备份上次完整备份或增量备份以来更改过的所有选定文件。恢复丢失数据时,必须恢复上次完整备份和所有后续增量备份,备份时间比差异备份时间更少,但恢复数据时速度较慢。
- 备份安全:最安全的备份状态是离线的,放置在站外,存储在物理锁定的环境中,且能够免受如火灾或水灾等环境入侵的影响。
11.2 业务连续性计划(business continuity plan/BCP)
- 业务连续性计划(business continuity plan/BCP):描述和批准组织整体业务连续性战略的政策。
BCP内容可能包括:
1. 确定关键系统和组件,并确保该资产得到保护
2. 保存关键文件
3. 建立决策机构
4. 沟通利益相关方
5. 解决基础设备问题,如维护实用程序服务,利用可承受故障的高可用性或容错系统创建并维护数据备份。
6. 定期进行审查和测试。
7. 授权主管应亲自签署该计划
- 灾难恢复计划(disaster recovery plan/DRP):描述和批准组织灾难恢复战略的一种策略。
DRP内容可能包括:
1. 负责恢复的人员名单和联系信息
2. 硬件和软件清单
3. 保持业务连续性所需的重要业务和客户信息的记录
4. 流程手册和其他重要信息的记录,如IT应急计划
5. 备用站点的规格说明
6. 有关备份项目各程序的信息。
- IT应急计划(IT contingency plan):指定了可以进行切换的备用IT流程。有效性取决于主要人员了解IT应急计划的组成部分,并在组织面临攻击或服务中断时决定何时以及如何启动应急计划;不时检查清单,查看IT应急计划的所有方面是否到位;为员工和管理层提供培训,时常进行计划的维护和重新审核。
- 回退应急计划(backout contingency plan):有文档记录的计划,包括撤销系统更改或修改时应用的特定程序和流程。
- 继任计划(succession plan):确保所有关键业务人员拥有一个或多个可在需要时执行关键职能的指定后援人员。
- 故障转移(failover):确保冗余组件,设备或应用程序可以快速有效地接管故障资产的功能的技术。如HA,冗余等
- 备用业务实践:将相关业务转移给受信任的第三方
11.2.1 测试演习
- 演练,专题研讨会和导向研讨会:为灾难恢复团队成员提供基本的谁知和培训。
- 桌面演习(tabletop exercises):基于讨论的会话。
- 功能演习:在模拟环境中执行基于场景的活动来验证BCP/DRP
- 全方位演习:尽可能使用真实的设备和真实的人员进行演习
11.2.2 行动后报告
行动后报告(after-action report/AAR)或经验教训报告(lessons learned report/LLR)包含了对事件的分析,为未来如何改进响应流程提供见解。
- 发生了什么?
- 进行了哪些响应
- 是否遵循了BCP及其附属计划
- BCP计划中未执行哪些内容
- 是否有未成功执行的内容
- BCP是否能充分应对这种情况
- BCP是否有缺漏
- 恢复团队是否高效地履行了他们的职责
- 是否需要额外的演习或培训
11.2.3 制定BCP准则
- 确保BCP覆盖组织的所有关键系统
- 制定补充DRP,重点关注发生灾难后IT运营的恢复过程
- 确保DRP中包含了备用站点,资产清单,备份程序和其他关键信息
- 制定IT应急计划,确保IT程序在不利事件发生后能继续进行
- 确保IT人员接受了此计划的培训
- 制定回退应急计划
- 制定继任计划
- 在BCP纳入故障转移技术
- 清点主资产和冗余资产,并将他们一一对应
- 如有必须,将备用业务纳入BCP
- 进行测试性演习
- 编写AAR,学习经验
- 确定需要改进的地方