代码改变世界

hadoop shuffle 落磁盘

2017-03-30 12:28  【戈多】  阅读(471)  评论(0编辑  收藏  举报

宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。

-D mapreduce.reduce.shuffle.input.buffer.percent=0.6
-D mapreduce.reduce.shuffle.memory.limit.percent=0.20