摘要: 额外的MapReduce功能图4.6 插入了Combiner的MapReduce数据流  Combiner:前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤,这个过程叫Combiner,它在Mapper之后Reducer之前运行。Combiner是可选的,如果这个过程适合于你的作业,Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的... 阅读全文
posted @ 2010-01-11 19:54 spork 阅读(4594) 评论(0) 推荐(0) 编辑
摘要: 接上一篇:MapReduce数据流(一)    输入块(InputSplit):一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上,即是指一个作业,会由几个(也可能几百个)任务组成。Map任务可能会读取整个文件,但一般是读取文件的一部分。默认情况下,FileInputFormat及其子类会以64MB(与HDFS的Block默认大小相... 阅读全文
posted @ 2010-01-11 19:50 spork 阅读(10048) 评论(0) 推荐(1) 编辑
摘要: 在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成,从高层来看,所有的组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线  MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定&ld... 阅读全文
posted @ 2010-01-11 19:36 spork 阅读(11636) 评论(1) 推荐(2) 编辑