摘要:
WritableComparable接口相当于继承了上述两个接口的新接口 : Public interface WritableComparable<T>extends Writable,Comparable<T> Writable接口: 基于DataInput与DatOutput的简单高效可序列化 阅读全文
摘要:
压缩好处:减少储存文件所需空间,还可以降低其在网络上传输的时间。 压缩算法对比 算法 原始文件大小 压缩后文件大小 压缩速度 解压缩速度 Gzip 8.3G 1.8G 17.5MB/s 58MB/s Bzip2 8.3G 1.1G 2.4MB/s 9.5MB/s LZO-bset 8.3G 2G 4 阅读全文
摘要:
HDFS和MR主要针对大数据文件来设计,在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile。 小文件问题解决方案 在原有HDF 阅读全文
摘要:
hdfs完整性:用户希望储存和处理数据的时候,不会有任何损失或者损坏。所以提供了两种校验: 1.校验和(常用循环冗余校验CRC-32)。 2.运行后台进程来检测数据块。 校验和: a.写入数据节点验证 b.读取数据节点验证 c.恢复数据 d.Localfilesystem类 e.Checksumfi 阅读全文