map端join和reduce端join的区别

MapReduce Join


MapJoin和ReduceJoin区别及优化

maptask处理后写到本地,如果再到reduce,又涉及到网络的拷贝。

map端join最大优势,可以提前过滤不需要的数据。

如对于20G左右的文件,可以用2个job来处理:

一个mapreduce进行数据过滤,

另一个mapreduce进行计算。

posted @ 2018-06-03 13:45  瓶子xf  阅读(628)  评论(0编辑  收藏  举报