《Distributed_Storage_Codes_With_Repair-by-Transfer_and_Nonachievability_of_Interior_Points_on_the_Storage-Bandwidth_Tradeoff》论文解读

论文5个部分，本篇主要是针对3-14日组会中，懂和不懂的地方进行记录。

论文部分：

我在这做简要说明：RAID技术是针对磁盘的技术，主要的来说，有RAID0，RAID1，RAID3，RAID5。

针对RAID0，就是将数据分割成几个部分（有几个硬盘就分几个部分），假设有两个硬盘，那就分成2部分，然后分别写入到这两个硬盘内，这样速度就成了之前的2倍，同理可以继续向上扩充。缺点是系统不可靠，万一一个硬盘数据出问题，那么整个文件系统就G了。
针对RAID1，磁盘镜像技术，把一个磁盘得数据复制到另一个磁盘上，这样就是为了保证数据的安全。缺点有两个，1.磁盘利用率成50%或者更低了。2.假如一个G了，更换一个新的以后，那么就要进行数据的镜像，要花费大量的时间和带宽。
针对RAID3，是带奇偶校验码的并行传送，可以通过下图理解，在Disk3中，存放的不是数据，而是校验码，那么好处：1.普通盘失效了以后，可以通过其他的普通盘和校验盘把失效的恢复；若校验盘失效了，可以通过普通盘重新得到校验盘。2.写和读的速度都很快，可以理解为1的升级版。缺点：1.要硬盘驱动器。2.针对大量连续的数据很快，但是针对随机数据就比较慢。

②DC（data collector）数据收集器 + 重建节点

所有的这些系统，最基本的是要保证“DC”功能，也就是数据收集（什么是数据收集呢，就是要知道原始文件在哪，以及他们是怎么存放和组合的）；在这个基础上，再保证，假如某节点出问题，能否修复；再研究，怎么修复代价最小，代价又分很多，有修复带宽，有存储空间。

所以，论文这个部分得出的这个结论：k ≤ d ≤ n − 1

d为什么要大于等于k呢，因为编码的理论告诉我们，如果要想满足数据收集的功能，那就必须要保证，至少要有k个节点，才能得到全部的数据，所以，d要大于等于k；如果d小于k了，那根据这d个数据，根本不能得到数据，那连最基本的都无法保证了。

d为什么要小于等于n-1呢，因为最多就n个节点，那么坏掉一个，剩下n-1个被用来修复，最多也就n-1个节点参与修复了。

这些参数的意义：

n：整个系统中，一共的节点个数，可以对应到，编码领域的n。

k：在编码理论中，代表的是信息位数，这里可以理解为，原始节点（没有经过编码过）。

d：代表参与修复的节点个数。

α：每一个节点，子分组化级别。

β：从每一个节点中，下载的数据量，有β≤α。

B：整个文件的大小。

③ 图的理解

前人得到的这个式子，这个式子什么意思呢，可以理解为，要下载一个1GB的电影（B），需要从系统下载的数据量一定要大于1GB（右边的∑），如果这个不等式的等号成立，我们可以得出，1GB的电影，最少要到系统下载1GB的数据，也就是得到了下面这个图。

这个图上的这条曲线，只要在曲线上的点，都满足1GB=1GB这个关系，也就是最小的下载量，我们接下来讨论的，就是在等号成立的条件下（在图的曲线上的点），满足不同条件的点。

分别得到了MSR和MBR这两个点，意义是：MSR最小的存储代价，MBR是最小的带宽代价，分别是α的最小值和dβ的最小值。

我接下来要做的是local regeneration，那就要搞懂在什么tradeoff下，做出什么样的东西。

posted @ 2024-03-14 17:24 沉梦昂志_doc 阅读(11) 评论(0) 编辑收藏举报

刷新页面返回顶部

KeithTee