《Distributed_Storage_Codes_With_Repair-by-Transfer_and_Nonachievability_of_Interior_Points_on_the_Storage-Bandwidth_Tradeoff》论文解读

论文5个部分,本篇主要是针对3-14日组会中,懂和不懂的地方进行记录。

论文部分:

①RAID(具体可以参考百度百科https://baike.baidu.com/item/%E7%A3%81%E7%9B%98%E9%98%B5%E5%88%97/1149823?fromtitle=RAID&fromid=33858&fr=aladdin

我在这做简要说明:RAID技术是针对磁盘的技术,主要的来说,有RAID0,RAID1,RAID3,RAID5。

  • 针对RAID0,就是将数据分割成几个部分(有几个硬盘就分几个部分),假设有两个硬盘,那就分成2部分,然后分别写入到这两个硬盘内,这样速度就成了之前的2倍,同理可以继续向上扩充。缺点是系统不可靠,万一一个硬盘数据出问题,那么整个文件系统就G了。
  • 针对RAID1,磁盘镜像技术,把一个磁盘得数据复制到另一个磁盘上,这样就是为了保证数据的安全。缺点有两个,1.磁盘利用率成50%或者更低了。2.假如一个G了,更换一个新的以后,那么就要进行数据的镜像,要花费大量的时间和带宽。
  • 针对RAID3,是带奇偶校验码的并行传送,可以通过下图理解,在Disk3中,存放的不是数据,而是校验码,那么好处:1.普通盘失效了以后,可以通过其他的普通盘和校验盘把失效的恢复;若校验盘失效了,可以通过普通盘重新得到校验盘。2.写和读的速度都很快,可以理解为1的升级版。缺点:1.要硬盘驱动器。2.针对大量连续的数据很快,但是针对随机数据就比较慢。

  •  针对RAID5,是分布式的RAID3,也就是说,校验盘不一定全都是Disk3,可以是其他的盘的条带,主要看的是采用哪一种技术,示意图如下。

 

②DC(data collector)数据收集器 + 重建节点

所有的这些系统,最基本的是要保证“DC”功能,也就是数据收集(什么是数据收集呢,就是要知道原始文件在哪,以及他们是怎么存放和组合的);在这个基础上,再保证,假如某节点出问题,能否修复;再研究 ,怎么修复代价最小,代价又分很多,有修复带宽,有存储空间。

所以,论文这个部分得出的这个结论:k ≤ d ≤ n − 1

d为什么要大于等于k呢,因为编码的理论告诉我们,如果要想满足数据收集的功能,那就必须要保证,至少要有k个节点,才能得到全部的数据,所以,d要大于等于k;如果d小于k了,那根据这d个数据,根本不能得到数据,那连最基本的都无法保证了。

d为什么要小于等于n-1呢,因为最多就n个节点,那么坏掉一个,剩下n-1个被用来修复,最多也就n-1个节点参与修复了。

这些参数的意义:

n:整个系统中,一共的节点个数,可以对应到,编码领域的n。

k:在编码理论中,代表的是信息位数,这里可以理解为,原始节点(没有经过编码过)。

d:代表参与修复的节点个数。

α:每一个节点,子分组化级别。

β:从每一个节点中,下载的数据量,有β≤α。

B:整个文件的大小。

 

 

 ③ 图的理解

前人得到的这个式子,这个式子什么意思呢,可以理解为,要下载一个1GB的电影(B),需要从系统下载的数据量一定要大于1GB(右边的∑),如果这个不等式的等号成立,我们可以得出,1GB的电影,最少要到系统下载1GB的数据,也就是得到了下面这个图。

这个图上的这条曲线,只要在曲线上的点,都满足1GB=1GB这个关系,也就是最小的下载量,我们接下来讨论的,就是在等号成立的条件下(在图的曲线上的点),满足不同条件的点。

分别得到了MSR和MBR这两个点,意义是:MSR最小的存储代价,MBR是最小的带宽代价,分别是α的最小值和dβ的最小值。

我接下来要做的是local regeneration,那就要搞懂在什么tradeoff下,做出什么样的东西。

 

posted @ 2024-03-14 17:24  沉梦昂志_doc  阅读(11)  评论(0编辑  收藏  举报