Map join

一、基础

1、Reduce join 会给Reduce带来过多的负载,容易使数据发生倾斜

2、Map join 适用于一张小表和一张大表

 二、实现

1、在Mapper的setup阶段,将文件读取到缓存集合中(小文件)

2、在驱动函数中加载缓存

job.addCacheFile(new URI(路径));

 

posted @ 2020-09-09 23:11  市丸银  阅读(381)  评论(0编辑  收藏  举报