2017年8月13日

hadoop2.x之IO:基于文件的数据结构

摘要: 备注 二进制文件广义上讲是所有文件(在物理上所有文件都是二进制编码)。狭义上是指文本文件以外的文件 。而文本文件又是指ASCII或unicode编码的文件,二者在物理上没有本质的区别,只是逻辑上的概念。所以二进制文件在这里指的是所有文件。 Hadoop主要处理日志文件,其中每一行文本代表一条日志记录 阅读全文

posted @ 2017-08-13 09:56 erygreat 阅读(158) 评论(0) 推荐(0) 编辑

hadoop2.x之IO:序列化

摘要: 序列化 是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。 反序列化 是指将字节流转回结构化对象的逆过程。 假设我们创建了一个类People,里面两个属性:name和age。在我们JVM没有关闭且该实例没有销毁的时候,我们可以调用这个实例。但是当我们关闭JVM等方式使该实例销 阅读全文

posted @ 2017-08-13 09:45 erygreat 阅读(202) 评论(0) 推荐(0) 编辑

hadoop2.x之IO:MapReduce压缩

摘要: 前面我们说到了hadoop的压缩,在Hadoop所运行的数据一般都是很大的,输入的数据很大,输出的数据也很大。因此我们有必要对map和Reduce的数据进行压缩存储。 如果我们想对Reduce进行压缩,有两种方法,一种是配置使用Configuration配置。另一种是还是用FileOutputFor 阅读全文

posted @ 2017-08-13 09:32 erygreat 阅读(169) 评论(0) 推荐(0) 编辑

hadoop2.x之IO:压缩和解压缩

摘要: 文件压缩可以降低存储需要的空间,并且在传输过程中加快传输速度。因此对于大量数据的处理时,压缩是十分重要的。我们考虑一下Hadoop在文件中的压缩用法。 有许多压缩方式,如下: |压缩格式|工具|算法|文件拓展名|是否可切分| | | | | | | |DEFLATE|无|DEFLATE|.defla 阅读全文

posted @ 2017-08-13 09:28 erygreat 阅读(825) 评论(0) 推荐(0) 编辑

hadoop2.x之HDFS

摘要: 1.HDFS简介 HDFS(有时也成为DFS)是Hadoop的分布式文件系统。他可以将一个文件分布在多个主机上 例如:现在有一个200GB的文件,我们有5台电脑,每台存储为100GB,所以我们在一台电脑上是无法存放该文件的。这时我们就需要将其分区(就是切割成好几块)然后将它分别存储在各个主机上(每个 阅读全文

posted @ 2017-08-13 09:26 erygreat 阅读(347) 评论(0) 推荐(0) 编辑

导航