摘要: 一、SquenceFile 文件中每条记录是可序列化,可持久化的键值对,提供相应的读写器和排序器,写操作根据压缩的类型分为3种。 Write 无压缩写数据 RecordCompressWriter记录级压缩文件,只压缩值 BlockCompressWrite块级压缩文件,键值采用独立压缩方式 在存储 阅读全文
posted @ 2018-01-26 19:52 李华东 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 减少储存文件所需空间,还可以降低其在网络上传输的时间。压缩算法对比 算法 原始文件大小 压缩后文件大小 压缩速度 解压缩速度Gzip 8.3G 1.8G 17.5MB/s 58MB/sBzip2 1.1 2.4MB/s 9.5MB/sLZO-bset 2 4MB/s 60.6MB/sLZO 2.9 阅读全文
posted @ 2018-01-26 19:24 李华东 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 前言:为什么Hadoop基本类型还要定义序列化? 1、Hadoop在集群之间通信或者RPC调用时需要序列化,而且要求序列化要快,且体积要小,占用带宽小。 2、java的序列化机制占用大量计算开销,且序列化结构体积过大,它的引用机制也导致大文件不能被切分,浪费空间,此外,很难对其他语言进行扩展使用。 阅读全文
posted @ 2018-01-26 19:18 李华东 阅读(152) 评论(0) 推荐(0) 编辑
摘要: HDFS和MR主要针对大数据文件来设计,在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile。小文件问题的解决方案: 在原有HD 阅读全文
posted @ 2018-01-26 19:01 李华东 阅读(212) 评论(0) 推荐(0) 编辑
摘要: HDFS数据完整性 用户希望存储和处理数据的时候,不会有任何损失或者损坏。 Hadoop提供两种校验 1、校验和 常用的错误检测码是:CRC-32(循环冗余校验)使用CRC-32算法任何大小的数据输入均计算得到一个32位的整数校验码。 2、运行后台进程来检测数据块 校验和 1、写入数据节点验证 Hd 阅读全文
posted @ 2018-01-26 18:46 李华东 阅读(637) 评论(0) 推荐(0) 编辑