读数据保护:工作负载的可恢复性23磁带系统

1. 磁带机

1.1. 在当今的工作环境中,磁带机是最古老的数据保护设备

  • 1.1.1. 更老的打孔卡与打孔带,然而对于服务器所存储的程序与数据来说,第一个真正得以流行的备份手段确实是磁带机

  • 1.1.2. HP的服务器装有能够读取4毫米DDS磁带的磁带机​

  • 1.1.2.1. 磁带的容量是2GB、8GB或24GB

  • 1.1.3. Digital(也就是DEC)的服务器装有TK50磁带机

  • 1.1.3.1. 磁带的容量只有94MB​

  • 1.1.4. AT&T的3B2计算机使用QIC-80磁带机

  • 1.1.4.1. 磁带只能存80MB数据,而且还不够快

  • 1.1.5. 大型机用的是九轨磁带机

1.2. 无论在哪种情况下,磁带的成本几乎都要低于其他方案

  • 1.2.1. 只是现在的数据保护产业已经不再将磁带机视为主要的备份目标了

1.3. 要点

  • 1.3.1. 如果你打算长期保存数据,那必须把准备相应的磁带机也纳入工作流程

  • 1.3.1.1. 磁带里记录着哪些内容,当然应该由你来维护

  • 1.3.1.2. 把能够读取这些内容的磁带机准备好,也是你的责任

  • 1.3.2. 磁带机不用像磁盘驱动器那样整天开着

  • 1.3.2.1. 你可以把它们的电源拔掉,并将其放在安全的地方,等需要用时再拿出来

>  1.3.2.1.1. 它们基本上不会有什么问题
  • 1.3.3. 就算有一盘30年前录制的磁带,能找到一款能够读取该磁带的磁带机

  • 1.3.3.1. 目前还是有一大帮人在维护着老式的磁带机

  • 1.3.4. 就算你找不到这样的磁带机,也还是可以寻求某种服务,让该服务的提供商替你把磁带中的内容读出来

  • 1.3.5. 需要在磁带上长期保存数据的人,可能偶尔会决定把这些数据刷新(也就是转录)一遍

  • 1.3.5.1. 把数据转移到更新、更快的磁带上,从而淘汰那些旧式的磁带与磁带机,并由此节省存储磁带的费用

  • 1.3.5.2. 在商用环境中,每盘磁带每年的保管费是4美元,如果你有10000盘400GB的磁带,那么每年的保管费就是40000美元

  • 1.3.5.3. 数据若能转存到12TB的磁带上,则只需要334盘磁带,这样能够把每年的保管费降为1336美元

2. 优点

2.1. 费用低廉

  • 2.1.1. 成本最接近磁带的是那种用来保存经过去重的数据时所使用的磁盘,然而磁带的价格要远低于后者

  • 2.1.2. 成本低廉较为重要的一个原因在于,存储数据的介质(也就是磁带本身)与将数据写入该介质的设备(也就是磁带机)是相互分离的

  • 2.1.2.1. 对于磁盘来说,这不太可能,每块磁盘都必须跟它的写入机制集成到一起

  • 2.1.2.2. 磁盘驱动器的内部构造也要比磁带驱动器(也就是磁带机)复杂得多

  • 2.1.2.3. 全自动的磁带柜来操纵多个磁带机,以此充当大型的存储阵列,这样做的成本通常比用磁盘所打造的磁盘阵列要低

  • 2.1.3. 磁带真正能体现其优势的地方在于耗电量

  • 2.1.3.1. 磁带柜里的磁带平常是不需要电的

  • 2.1.3.2. 磁带机在不写入数据时也几乎不耗电

>  2.1.3.2.1. 自动磁带柜在不取磁带时也是如此
  • 2.1.3.3. 常见的磁盘驱动器则做不到这一点,一般来说,磁盘阵列里的每块磁盘都必须一直通电
>  2.1.3.3.1. 大规模闲置磁盘阵列

  >   2.1.3.3.1.1. Massive Array of Idle Disk,MAID,又称大规模非活动磁盘阵列、大规模空转磁盘阵列

  >   2.1.3.3.1.2. 能够让磁盘电源在大多数时间内处于关闭状态

  >   2.1.3.3.1.3. 去重要求所有的磁盘都必须处于工作状态,而MAID则想让这些磁盘都尽量处于闲置状态
  • 2.1.3.4. 买系统只需要付一次钱,但是买回来之后,就必须整天开着
>  2.1.3.4.1. 还要把买回来之后的电费跟冷却费给算上
  • 2.1.4. 磁带系统比磁盘系统更省电

  • 2.1.4.1. 数据保存的时间越长,所节省的电费与冷却费就越多

  • 2.1.4.2. 就算磁盘本身不要钱,它在费用方面也还是会比磁带高,因为你必须把电费与冷却费给考虑进来

  • 2.1.4.3. 存放同一份数据的多个副本,是否会让电费与冷却费增加

>  2.1.4.3.1. 对于磁带来说,这不会增加成本

>  2.1.4.3.2. 对于磁盘来说,每多存一份,就会增加一份开销
  • 2.1.5. 当今这些基于磁盘的系统所提供的功能,已经远超它在费用方面的劣势了,然而无论如何,磁带的费用就是比磁盘低

2.2. 可靠地写入数据

  • 2.2.1. 磁带机写入数据远比磁盘驱动器可靠

  • 2.2.1.1. 每个存储厂商都会为其所推出的每一款存储设备公布UBER(Uncorrected Bit Error Rate,未修正的错误比特率)​

  • 2.2.1.2. UBER的意思是说,该设备有多大概率会把本来应该写成1的地方给写成0(或者把本来应该写成0的地方给写成1)​,并且无法修复(无法修正)该错误

  • 2.2.1.3. 磁带在正确写入数据这一方面比磁盘要强

  • 2.2.2. 当今的数据写入设备为了确保数据能够正确地写入,都会执行一种名叫写后读校验(read-after-write check)的操作

  • 2.2.2.1. ECC(Error Correcting Code,纠错码)

  • 2.2.2.2. CRC(Cyclical Redundancy Check,循环冗余校验)

  • 2.2.2.3. 驱动器在写入数据块之前会先计算其哈希码(hash,也叫杂凑码)​,然后再写入这块数据

  • 2.2.3. 在大多数情况下,设备所写入的数据块是正确的,而且即便写错了,这些用于探测写入错误的技术也大都能把错误给找出来

  • 2.2.3.1. 既写错数据又找不出错误的情况依然是存在的,这两种情况同时出现的概率虽然相当低,但毕竟不是0

  • 2.2.4. 未修正的错误比特(uncorrected bit error,或称未修正的错误二进制位)​

  • 2.2.4.1. 发生这种情况的概率其实远比很多人想的要高,而且对于磁盘来说尤为严重

  • 2.2.4.2. 当今的磁带机写错数据的概率极低

  • 2.2.4.3. 磁带机可能会受各种原因(比方说,本身遭到了破坏)影响而无法读出你想要的数据,然而只要它能把数据读给你,这种数据一般来说都不会错

  • 2.2.4.4. LTO-8的UBER是1∶10^19

  • 2.2.4.5. SATA磁盘的UBER高达1:10^14

  • 2.2.4.6. SATA磁盘写错的概率是LTO-8磁带的10000倍

  • 2.2.5. 在正确写入数据这一点上要远胜磁盘

  • 2.2.5.1. 这实在没有争论的余地

2.3. 长久地保存数据

  • 2.3.1. 磁带是一种极其适合长久保存数据的介质

  • 2.3.1.1. 磁带能够把数据保存30年,而一个全天开机的磁盘则只能保存5年

  • 2.3.2. 所有的磁性介质(magnetic media,又称磁性媒介)都会随着时间而退化

  • 2.3.2.1. 问题只在于退化的速度是多少

  • 2.3.2.2. 退化现象俗称位衰减(bit rot)

>  2.3.2.2.1. 它决定了一份文件能够在某种磁性介质中保存多久而不走样

>  2.3.2.2.2. 位衰减问题可以由对象存储机制来解决

  >   2.3.2.2.2.1. 如果底层数据由于位衰减而发生变化,那么根据该对象的哈希码所生成的UID也会改变,对象存储机制能够将这一故障探测出来并予以修正
  • 2.3.3. 位衰减的速度由两个因素决定

  • 2.3.3.1. 磁颗粒的大小(也就是体积)​

>  2.3.3.1.1. 磁颗粒越大越好
  • 2.3.3.2. 介质的平均温度
>  2.3.3.2.1. 介质温度越低越好
  • 2.3.4. 与磁带相比,磁盘的磁颗粒要小得多,而且温度比磁带高

  • 2.3.4.1. 由于磁盘的磁颗粒较小,而且运转时的温度较高,因此它的数据衰减速度比磁带快

  • 2.3.4.2. 磁盘每次搬移数据时,都会面临磁盘的位错误率(bit error rate,又称比特错误率)比较高的问题

  • 2.3.5. 有个公式决定了每种磁性介质的势垒(energy barrier,又称位垒、能垒)​

  • 2.3.5.1. 势垒指的是,需要多少能量才能让某个磁颗粒(magnetic grain,即磁性介质中存储一个二进制位所用的单元)变换到与目前相反的状态(即从1变成0,或从0变成1)​

3. 缺点

3.1. 磁带不擅长写入那种常见的增量备份

  • 3.1.1. 不擅长在比较长的一段时间内写入数量较少的数据

3.2. 为了让磁头能够把数据可靠地写入介质,必须保持较高的信噪比,这意味着信号(也就是磁头中的换极现象)必须远多于噪声(也就是干扰正常信号的那些电子杂讯)​

  • 3.2.1. 要想维持较高的信噪比,关键是要让记录数据所用的介质能够高速地通过磁头

  • 3.2.2. 磁盘驱动器采用的做法是让记录数据的介质高速旋转

  • 3.2.3. 磁带机的做法则是飞快地转动磁带,让它能够高速地经过磁头

  • 3.2.3.1. 让磁头静止不动,并让磁带高速地滑过磁头

3.3. 让磁头静止并且让磁带高速滑过的做法,叫作线性磁带记录模式(linear tape recording model)

  • 3.3.1. 这正是LTO(Linear Tape Open,线性磁带开放协议)磁带机所采用的录制手法

  • 3.3.2. IBM的TS11x0磁带机也是如此

3.4. LTO-8磁带通过磁头的速度是每秒20ft,这相当于每小时13mile(或每小时21km)​

  • 3.4.1. 为了让磁带全速运转,数据必须以每秒750MB的速度到来,而要想达到这种速度,向磁带提供数据的设备每秒要准备1GB数据

  • 3.4.2. 问题在于,我们生成备份数据的速度达不到每秒750MB

  • 3.4.3. 带有1GB缓冲区的LTO-8磁带机,能够在某种程度上解决数据输入速度与磁带机速度之间的差异问题,然而这只是针对差距不大的情况

3.5. 解决办法

  • 3.5.1. 浪费好几英里长的磁带什么都不写(这正是某些磁带机目前的做法)​,

  • 3.5.2. 定期让磁带停止转动,并重新调整写入的位置,以适应这种较低的数据流入速度

  • 3.5.2.1. 磁带机会让磁带停下来,然后倒带,接着继续以正常速度正向转动磁带

>  3.5.2.1.1. 给介质做重定位,这可能需要6s

  >   3.5.2.1.1.1. “擦鞋”(shoe shining)

  >   3.5.2.1.1.2. 这种运动方式很像擦鞋时的动作,都是在反复地擦来擦去

  >   3.5.2.1.1.3. 如果这种现象频繁出现,那么磁带机花在重新定位上的时间,就比花在写入数据上的时间更多,这会让人觉得磁带机好像比输入的数据流还慢
  • 3.5.2.2. 采用速度适配技术(adaptive speed technology,也叫自适应的速度技术)来调整介质的移动速度,令其与数据的流入速度相符,以尽量降低重新定位的次数

3.6. 让数据流入每个磁带机的速度,变得与该磁带机所标称的运转速度相符

  • 3.6.1. 磁带机的速度与备份数据的流入速度相匹配

  • 3.6.2. 磁带机本身并不慢,慢的是你的备份数据流入磁带机的速度

  • 3.6.3. 由于磁带机没办法把速度降到像后者那样低,因此它必须反复调整磁带的位置,这导致实际的处理速度变得相当缓慢

posted @   躺柒  阅读(19)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· 【.NET】调用本地 Deepseek 模型
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
历史上的今天:
2024-01-02 读算法霸权笔记09_信用数据的陷阱
点击右上角即可分享
微信分享提示