2010 年 1月 11 日随笔档案 - spork

2010年1月11日

摘要：额外的MapReduce功能图4.6 插入了Combiner的MapReduce数据流　　Combiner：前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤，这个过程叫Combiner，它在Mapper之后Reducer之前运行。Combiner是可选的，如果这个过程适合于你的作业，Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的... 阅读全文

posted @ 2010-01-11 19:54 spork 阅读(4599) 评论(0) 推荐(0) 编辑

MapReduce数据流（二）

摘要：接上一篇：MapReduce数据流（一）　　　　输入块（InputSplit）：一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上，即是指一个作业，会由几个（也可能几百个）任务组成。Map任务可能会读取整个文件，但一般是读取文件的一部分。默认情况下，FileInputFormat及其子类会以64MB（与HDFS的Block默认大小相... 阅读全文

posted @ 2010-01-11 19:50 spork 阅读(10050) 评论(0) 推荐(1) 编辑

MapReduce数据流（一）

摘要：在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成，从高层来看，所有的组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线　　MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定&ld... 阅读全文

posted @ 2010-01-11 19:36 spork 阅读(11678) 评论(1) 推荐(2) 编辑

公告