摘要: 霍夫曼编码是可变字长编码(VLC)的一种。 Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就称Huffman编码。 霍夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率... 阅读全文
posted @ 2012-12-10 12:55 飞天的白猪 阅读(512) 评论(0) 推荐(0) 编辑
摘要: Yarn是新一代的MapReduce执行框架(简称为MapReduce2)和老版本的MapReduce执行框架(简称为MapReduce1)相比最大的改变是,将MapReduce1的JobTracker分解为两个部分,资源管理器和作业调度器。MapReduce2有一个全局的资源管理器(R... 阅读全文
posted @ 2012-12-09 17:06 飞天的白猪 阅读(271) 评论(0) 推荐(0) 编辑
摘要: MapReduce作业输出 hadoop的输出格式和输入格式对应,都是实现类OutputFormat,按使用方式分为三种,文本格式,二进制格式,自定义文件输出(??Multiple outputs)。 1.文本格式 TextOutputFormat是Hadoop的默认输出格式,对应于KeyV... 阅读全文
posted @ 2012-12-08 21:50 飞天的白猪 阅读(138) 评论(0) 推荐(0) 编辑
摘要: Combiner和Partitioner Combiner一般被定义为mini Reducer或者本地Reducer,对一个mapper任务的输出进行归约,减轻网络流量消耗和Reducer任务的负担。从Combiner是继承Reducer类可以一窥它的功能。还是一WordCou... 阅读全文
posted @ 2012-11-20 12:55 飞天的白猪 阅读(153) 评论(0) 推荐(0) 编辑
摘要: MapRedcue作业的设置与运行 新版本的设置和旧版本的有较大区别,新版本使用job对象统一管理作业的配置和运行,删除了JobClient对象,实现了配置和运行的统一。 编写好了map函数和reduce函数,再对MapReduce作业进行适当的设置,MapReduc... 阅读全文
posted @ 2012-11-15 12:19 飞天的白猪 阅读(161) 评论(0) 推荐(0) 编辑
摘要: Reducer的实现 map任务读取数据,解析数据,按照键值将数据分成一组一组的,reduce任务收集map任务的输出,通过合并、排序和归约三个过程对map的输出数据进行进一步的处理。现在我们只关心归约过程即reduce函数的实现。 实际上我们不用重新去实现,只需继承Had... 阅读全文
posted @ 2012-11-14 12:36 飞天的白猪 阅读(152) 评论(0) 推荐(0) 编辑
摘要: Map任务执行类的实现 Hadoop MapReduce框架将要处理数据切分成片,将每个分片让一个map任务去完成,每个map任务都将分片数据解析为键值对数据,调用Mapper类的map函数,将输入键值对转化为输出键值对,输出键值对的类型和输入键值对的类型可以没有任何关系。一个输入键值... 阅读全文
posted @ 2012-11-13 12:55 飞天的白猪 阅读(201) 评论(0) 推荐(0) 编辑
摘要: Hadoop的MapReduce作业都是对key/value空间进行处理,从一个键值对空间映射到另一个键值对空间。具体来讲就是 (输入) -> map -> -> combine -> -> reduce -> (输出) Hadoop中的key/value的类... 阅读全文
posted @ 2012-11-12 22:31 飞天的白猪 阅读(278) 评论(0) 推荐(0) 编辑
摘要: hadoop框架设计得非常好,你只需要完成很少的工作就可以让自己的mapreduce作业运行起来,但是很多时候我们想要有更多的掌控权,以完成特定任务的特殊要求。这就需要我们去修改hadoop框架的默认配置。 先介绍一下mapreduce作业相关的一些默认配置 1.输入格式(InputFormat... 阅读全文
posted @ 2012-11-11 16:55 飞天的白猪 阅读(156) 评论(0) 推荐(0) 编辑
摘要: Hadoop分布式文件系统(HDFS) 首先介绍一下HDFS的特点: 1.擅长处理大文件,超大文件。几十G甚至PB级别的文件 2.擅长流式数据访问,一次写入多次读取是最高效的访问模式 3.可以运行在普通的机器上,一般只要求内存是ECC内存,可以对数据进行纠错。 4.擅长执行非实时的分析或者是近实... 阅读全文
posted @ 2012-11-10 16:07 飞天的白猪 阅读(118) 评论(0) 推荐(0) 编辑