2018 年 1月 26 日随笔档案 - 李华东

2018年1月26日

摘要：一、SquenceFile 文件中每条记录是可序列化，可持久化的键值对，提供相应的读写器和排序器，写操作根据压缩的类型分为3种。 Write 无压缩写数据 RecordCompressWriter记录级压缩文件,只压缩值 BlockCompressWrite块级压缩文件,键值采用独立压缩方式在存储阅读全文

posted @ 2018-01-26 19:52 李华东阅读(422) 评论(0) 推荐(0) 编辑

Hadoop IO操作之压缩

摘要：减少储存文件所需空间，还可以降低其在网络上传输的时间。压缩算法对比算法原始文件大小压缩后文件大小压缩速度解压缩速度Gzip 8.3G 1.8G 17.5MB/s 58MB/sBzip2 1.1 2.4MB/s 9.5MB/sLZO-bset 2 4MB/s 60.6MB/sLZO 2.9 阅读全文

posted @ 2018-01-26 19:24 李华东阅读(178) 评论(0) 推荐(0) 编辑

Hadoop IO操作之序列化

摘要：前言：为什么Hadoop基本类型还要定义序列化？ 1、Hadoop在集群之间通信或者RPC调用时需要序列化，而且要求序列化要快，且体积要小，占用带宽小。 2、java的序列化机制占用大量计算开销，且序列化结构体积过大，它的引用机制也导致大文件不能被切分，浪费空间，此外，很难对其他语言进行扩展使用。阅读全文

posted @ 2018-01-26 19:18 李华东阅读(152) 评论(0) 推荐(0) 编辑

Hadoop IO操作之基于文件的数据结构

摘要： HDFS和MR主要针对大数据文件来设计，在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile。小文件问题的解决方案：在原有HD 阅读全文

posted @ 2018-01-26 19:01 李华东阅读(212) 评论(0) 推荐(0) 编辑

Hadoop IO操作之校验和

摘要： HDFS数据完整性用户希望存储和处理数据的时候，不会有任何损失或者损坏。 Hadoop提供两种校验 1、校验和常用的错误检测码是：CRC-32（循环冗余校验）使用CRC-32算法任何大小的数据输入均计算得到一个32位的整数校验码。 2、运行后台进程来检测数据块校验和 1、写入数据节点验证 Hd 阅读全文

posted @ 2018-01-26 18:46 李华东阅读(637) 评论(0) 推荐(0) 编辑

公告