2018年1月26日
摘要: WritableComparable接口相当于继承了上述两个接口的新接口 : Public interface WritableComparable<T>extends Writable,Comparable<T> Writable接口: 基于DataInput与DatOutput的简单高效可序列化 阅读全文
posted @ 2018-01-26 20:37 NightRaven 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 压缩好处:减少储存文件所需空间,还可以降低其在网络上传输的时间。 压缩算法对比 算法 原始文件大小 压缩后文件大小 压缩速度 解压缩速度 Gzip 8.3G 1.8G 17.5MB/s 58MB/s Bzip2 8.3G 1.1G 2.4MB/s 9.5MB/s LZO-bset 8.3G 2G 4 阅读全文
posted @ 2018-01-26 19:09 NightRaven 阅读(267) 评论(0) 推荐(0) 编辑
摘要: HDFS和MR主要针对大数据文件来设计,在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile。 小文件问题解决方案 在原有HDF 阅读全文
posted @ 2018-01-26 19:00 NightRaven 阅读(451) 评论(0) 推荐(0) 编辑
摘要: hdfs完整性:用户希望储存和处理数据的时候,不会有任何损失或者损坏。所以提供了两种校验: 1.校验和(常用循环冗余校验CRC-32)。 2.运行后台进程来检测数据块。 校验和: a.写入数据节点验证 b.读取数据节点验证 c.恢复数据 d.Localfilesystem类 e.Checksumfi 阅读全文
posted @ 2018-01-26 18:43 NightRaven 阅读(1017) 评论(0) 推荐(1) 编辑