2013年3月22日

hadoop学习笔记(二)hadoop I/O

摘要: 数据完整性检测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和(checksum)。并在数据通过一个不可靠地通道进行传输时再次计算校验和,这样就能发现数据是否损坏。当然校验和也是可能损坏的,由于校验和相对于数据小很多,所以损坏的可能性十分小。常见的错误检测码是CRC-32(循环冗余校验),任何大小的数据输入均计算得到一个32位的整数校验和。HDFS的数据完整性有io.bytes.per.checksum指定字节的数据计算校验和。默认为512个字节,而CRC-32校验和是4个字节,所以存储校验和的而外开销低于1%每个datanode都持久保存一个校验和日志。datanode会在后台运行 阅读全文

posted @ 2013-03-22 11:43 _Deron_ 阅读(461) 评论(0) 推荐(0) 编辑

导航