11 2012 档案

摘要:Combiner和Partitioner Combiner一般被定义为mini Reducer或者本地Reducer,对一个mapper任务的输出进行归约,减轻网络流量消耗和Reducer任务的负担。从Combiner是继承Reducer类可以一窥它的功能。还是一WordCou... 阅读全文
posted @ 2012-11-20 12:55 飞天的白猪 阅读(153) 评论(0) 推荐(0) 编辑
摘要:MapRedcue作业的设置与运行 新版本的设置和旧版本的有较大区别,新版本使用job对象统一管理作业的配置和运行,删除了JobClient对象,实现了配置和运行的统一。 编写好了map函数和reduce函数,再对MapReduce作业进行适当的设置,MapReduc... 阅读全文
posted @ 2012-11-15 12:19 飞天的白猪 阅读(161) 评论(0) 推荐(0) 编辑
摘要:Reducer的实现 map任务读取数据,解析数据,按照键值将数据分成一组一组的,reduce任务收集map任务的输出,通过合并、排序和归约三个过程对map的输出数据进行进一步的处理。现在我们只关心归约过程即reduce函数的实现。 实际上我们不用重新去实现,只需继承Had... 阅读全文
posted @ 2012-11-14 12:36 飞天的白猪 阅读(152) 评论(0) 推荐(0) 编辑
摘要:Map任务执行类的实现 Hadoop MapReduce框架将要处理数据切分成片,将每个分片让一个map任务去完成,每个map任务都将分片数据解析为键值对数据,调用Mapper类的map函数,将输入键值对转化为输出键值对,输出键值对的类型和输入键值对的类型可以没有任何关系。一个输入键值... 阅读全文
posted @ 2012-11-13 12:55 飞天的白猪 阅读(201) 评论(0) 推荐(0) 编辑
摘要:Hadoop的MapReduce作业都是对key/value空间进行处理,从一个键值对空间映射到另一个键值对空间。具体来讲就是 (输入) -> map -> -> combine -> -> reduce -> (输出) Hadoop中的key/value的类... 阅读全文
posted @ 2012-11-12 22:31 飞天的白猪 阅读(278) 评论(0) 推荐(0) 编辑
摘要:hadoop框架设计得非常好,你只需要完成很少的工作就可以让自己的mapreduce作业运行起来,但是很多时候我们想要有更多的掌控权,以完成特定任务的特殊要求。这就需要我们去修改hadoop框架的默认配置。 先介绍一下mapreduce作业相关的一些默认配置 1.输入格式(InputFormat... 阅读全文
posted @ 2012-11-11 16:55 飞天的白猪 阅读(156) 评论(0) 推荐(0) 编辑
摘要:Hadoop分布式文件系统(HDFS) 首先介绍一下HDFS的特点: 1.擅长处理大文件,超大文件。几十G甚至PB级别的文件 2.擅长流式数据访问,一次写入多次读取是最高效的访问模式 3.可以运行在普通的机器上,一般只要求内存是ECC内存,可以对数据进行纠错。 4.擅长执行非实时的分析或者是近实... 阅读全文
posted @ 2012-11-10 16:07 飞天的白猪 阅读(118) 评论(0) 推荐(0) 编辑
摘要:hadoop作业执行的概念介绍 hadoop框架将作业分成若干小任务(task),包括map任务和reduce任务,其中reduce任务由作业提交者明确指定,框架默认为只有一个reduce任务 hadoop框架通过两类节点控制作业的执行过程,这两类节点是jobtracker和tasktracke... 阅读全文
posted @ 2012-11-10 15:05 飞天的白猪 阅读(148) 评论(0) 推荐(0) 编辑
摘要:学东西都是从例子开始是最好的,从hadoop的一个简单的mapreduce作业开始 import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuratio... 阅读全文
posted @ 2012-11-10 14:05 飞天的白猪 阅读(192) 评论(0) 推荐(0) 编辑
摘要:要想真正发挥hadoop的威力,必须将hadoop在集群上部署,下面介绍hadoop集群的部署。hadoop的集群部署是建立在伪集群安装的基础上,现假设有三台机器,一台master,两台slave,分别为slave1和slave2(其实两台机器也可以实现集群,其中一台机器同时扮演master和s... 阅读全文
posted @ 2012-11-10 00:23 飞天的白猪 阅读(138) 评论(0) 推荐(0) 编辑
摘要:想要学习hadoop,首先要将把“刀”磨好,安装好hadoop,hadoop集群有三种模式:本地模式,伪集群模式和集群模式,其中本地模式和伪集群模式主要用于在本地测试程序,集群模式用于实际运行中。本地模式和伪集群模式非常类似,只是在hadoop的配置上有一点差别,这里先介绍hadoop的伪集群模式的 阅读全文
posted @ 2012-11-09 22:57 飞天的白猪 阅读(149) 评论(0) 推荐(0) 编辑