map端join和reduce端join的区别
MapReduce Join
maptask处理后写到本地,如果再到reduce,又涉及到网络的拷贝。
map端join最大优势,可以提前过滤不需要的数据。
如对于20G左右的文件,可以用2个job来处理:
一个mapreduce进行数据过滤,
另一个mapreduce进行计算。
成就人
maptask处理后写到本地,如果再到reduce,又涉及到网络的拷贝。
map端join最大优势,可以提前过滤不需要的数据。
如对于20G左右的文件,可以用2个job来处理:
一个mapreduce进行数据过滤,
另一个mapreduce进行计算。