My Github
摘要: 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Reduce阶段总共三个步凑。其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上,这个过程就称作为Shuffle。Hadoop的shuffle过程就是从map端输出到reduce端输入之间的过程,这一段应该是Hadoop中最核心的部分,因为涉及到Hadoop中最珍贵的网络资源,所以shuffle过程中会有很多可以调节的参数,也有很多策略可以研究,这方面可以看看大神董西成的相关文章或他写的MapReduce相关书籍。 阅读全文
posted @ 2015-02-24 01:42 EdisonZhou 阅读(8934) 评论(1) 推荐(8) 编辑