关于备份的一篇论文Identifying Trends in Enterprise Data Protection Systems

概念预知

  1. 备份

    数据备份与快照技术是最为广泛使用的存储可靠性与可用性保障技术。传统意义上的数据备份系统,也称为容灾系统或灾难恢复系统,就是通过特定的数据备份恢复机制,能够在各种灾难损害发生后,仍然能够最大限度地保障提供正常应用服务的计算机信息系统。

    数据备份有多种实现形式,从不同的角度可以对备份进行不同的分类:从备份策略来看,可以分为完全备份、增量备份和差分备份。

    1. 完全备份(full backup)

      完全备份是指对整个系统或用户指定的所有文件数据进行一次全面的备份。这是最基本也是最简单的备份方式。这种备份方式的好处就是很直观,容易被人理解。如果在备份间隔期间出现数据丢失等问题,可以只使用一份备份文件快速地恢复所丢失的数据。但是它的不足之处也很明显,它需要备份所有的数据,并且每次备份的工作量很大,需要大量的备份介质。而且如果需要备份的数据量相当大,备份数据时进行读写操作所需的时间也会较长。

      这种备份不能进行得太频繁,只能每隔一段较长时间才进行一次完整的备份。但是一旦发生数据丢失,只能使用上一次的备份数据恢复到前次备份时数据状态,这期间内更新的数据就有可能丢失。

    2. 增量备份(incremental backup)

      增量备份只备份相对于上一次备份操作以来新创建或者更新过的数据。因为在特定的时间段内只有少量的文件发生改变,没有重复的备份数据,既节省了存储空间,又缩短了备份的时间。因而这种备份方法比较经济,可以频繁地进行。但是在增量备份系统中,一旦发生数据丢失或文件误删除操作时,恢复工作会比较麻烦,因为恢复操作需要查询一系列的备份操作,从最后一次完全备份开始,将记录在一次或多次的增量备份中的改变应用到文件上,增量备份的恢复需要多份的备份文件才可以完成。在这种备份下,各盘磁带间的关系就像链子一样,一环套一环,其中任何一盘磁带出现了问题都会导致整条链子脱节。因此这种备份的可靠性也最差。

    3. 差分备份(differential backup

      差分备份即备份上一次完全备份后产生和更新的所有新的数据。它的主要目的是将完全恢复时涉及到的备份记录数量限制在两个,以简化恢复的复杂性。差分备份在避免了上面两种策略缺陷的同时,又具有了它们的优点。首先,它无需频繁地做完全备份,工作量小于完全备份,因此备份所需的时间短并节省存储空间;其次,虽然每次做差分备份工作的任务要比增量备份的工作量要大,但是它的灾难恢复相对简单。系统管理员只需要对两份备份文件进行恢复,即完全备份和灾难发生前最近的一次差分备份文件,就可以将系统恢复。

  2. snapshot快照技术

    存储网络行业协会SNIA对快照的定义是“指定数据集合的一个完整可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。”定期数据备份技术实现的数据保护间隔一般为24小时,因此用户会面临丢失多达24 小时所产生的数据的风险,采用快照技术可以将数据的风险丢失量降低到几个小时之内。

    当前快照有两种实现,分别是COW(Copy on first write) 和ROW(Redirect on first write).

    1. COW(Copy on first write)

      假如有一个卷8个物理块,分别为1~8, 在某一个时刻做了快照,这时候生成了一个快照卷,快照卷也有8个块,和原始卷一样指向相同的物理块。这时候有一个新的io,修改原始卷的第8个物理块。则执行以下操作:①分配一个新的物理块。我们称为第9个物理块②读取第8个物理块③新读取的第8个物理块数据写入到第9个物理块。④更新快照卷map,指向第9个物理块⑤更新第8个物理块。写一个物理块,变成了1读3写。

      优点:原始卷物理块连续,没有碎片。缺点:写放大。

    2. ROW(Redirect on first write)

      ①分配一个新的物理块。我们称为第9个物理块②数据写入到第9个物理块。③更新原始卷map,指向第9个物理块。

      优点:性能比COW好。缺点:写放大,本来一个写,变成2写。原始卷物理块不连续。有碎片。

  3. 重复数据删除技术

    一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。

    高度冗余的数据集(例如备份数据)从数据重复删除技术的获益极大;用户可以实现10比1至50比1的缩减比。而且,重复数据删除技术可以允许用户的不同站点之间进行高效,经济的备份数据复制。

  4. 统计分析学概念

    1. 流失分析(Churn Analysis/Attrition Analysis)

      哪些顾客可能停止使用公司的产品/业务,以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。

    2. 实时决策(Real Time Decisioning, RTD)

      帮助企业做出实时(近乎无延迟)的最优销售/营销决策。比如,实时决策系统(打分系统)可以通过多种商业规则或模型,在顾客与公司互动的瞬间,对顾客进行评分和排名。

  5. 怎么备份一个系统

    1. 创建还原点
    2. 使用还原点恢复
  6. Symantec NetBackup备份

    NBU包括Server/Media/Client软件:

    1. 在需要连接存储设备(如磁带库或光盘库)的服务器上安装Server软件。
    2. 在需要提供数据进行备份的机器上安装Client 软件。
  7. 自动化容灾系统

    自动化容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能自动切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以自动切换到另一处,使得该系统功能可以继续正常工作。

    1. 数据级容灾是指通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏,但在数据级容灾这个级别,发生灾难时应用是会中断的。在数据级容灾方式下,所建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。数据级容灾的恢复时间比较长,但是相比其他容灾级别来讲它的费用比较低,而且构建实施也相对简单。
    2. 应用级容灾是在数据级容灾的基础之上,在备份站点同样构建一套相同的应用系统,通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,这样就使系统所提供的服务是完整的、可靠的和安全的。应用级容灾生产中心和异地灾备中心之间的数据传输是采用异类的广域网传输方式;同时应用级容灾系统需要通过更多的软件来实现,可以使多种应用在灾难发生时可以进行快速切换,确保业务的连续性。
    3. 业务级容灾是全业务的灾备,除了必要的IT相关技术,还要求具备全部的基础设施。其大部分内容是非IT系统(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。
  1. modern backup systems

    三层结构由一个主服务器、一个或多个存储服务器和几个客户端组成。存储服务器管理用于归档备份映像的存储介质,如磁带和硬盘。通过以这种方式抽象存储介质管理,客户端可以将数据直接发送到相应的存储服务器,从而避免主服务器的带宽瓶颈。域客户端可以是生成数据的桌面、服务器或虚拟机,这些数据由备份系统保护以防故障。

    image.png
  2. Perform a backup

    按照预先定义的顺序进行:给定时间点的数据状态快照snapshots;作为完整备份的一部分将数据复制到备份映像中;作为增量备份的一部分复制自上次备份以来修改的数据;作为恢复操作的一部分从备份映像中恢复数据;作为管理操作的一部分管理备份映像或备份域的配置。

    例如,完整备份之后可能会有一个管理操作,该操作会删除超过保留期的备份映像。

    为了得到一致的备份或提供时间点恢复保证,业务应用程序可能需要进行特定的操作。在这些情况下,备份产品提供特定于各个应用程序的预定义策略。

    比如微软交换服务器策略也将备份事务日志,以捕获自备份启动以来的任何更新。用户可以进一步配置策略来指定备份作业的特征,如频率和保留率。

  3. domains

    研究基于三年内从40,000个企业备份系统中收集的100万份每周报告。每个域都是一个多层备份服务器网络。研究中,每个备份域平均接受5.5个月的监控,最长32个月。监控时间并不总是等于域的总生命周期。备份软件可以安装在任何服务器上,但存储公司也提供专门构建的备份设备(PBBAs)。

  4. backup domain’s configuration

    有三个特征因素:客户端、策略、存储介质。随着域中资源的增加或减少而波动。三周后趋于稳定。如下图所示。

    image.png
  5. policy

    量化一个域中的策略数量和每个策略的特征是非常重要的,以便有效地表征该域的工作负载。一旦初始配置期结束,域中备份策略的数量基本保持稳定。备份产品为不同的应用程序类型提供了优化,并作为专用策略类型实施。将调查报告中的所有策略分成5种,如图所示。

    image.png

    调查发现,每个域倾向于使用一种策略。如图所示。

    image.png

    再详细调查发现,每个域中的每个客户端倾向于使用一个策略,如图所示,甚至有16%的客户端没有数据保护策略。启发我们需要在此考虑怎么保证客户端的数据完整性。

    image.png
  6. Job scheduling

    策略由一系列预定义的操作组成,每个操作都由单独的作业执行。论文将作业分为一下五种,并统计了每种作业所占的比重。完整备份可能每5天调度一次甚至更为频繁。

    image.png

    下图可以看出,NetBackup建议的默认调度窗口每天下午6点和12点开始。表明,自动化作业调度(其中唯一的约束是利用设备空闲将更加实用,允许系统调度作业,从而避免此类活动突发。

    image.png
  7. Data retention

    管理操作(元数据备份和备份映像副本)通常会保留1周。增量备份通常保留2周,这是默认选项。完整备份和快照更有可能保留数月。数据保留期过后,由管理操作将其删除。

  8. 展望

8W__RN9VQSRX_IU_06G_T.png

相关文献:Getting Back Up: Understanding How Enterprise Data Backups Fail

posted @ 2020-12-22 20:14  似漆  阅读(176)  评论(0编辑  收藏  举报