Fork me on GitHub

Hadoop Join

1. Reduce Join工作原理

Map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。

2. Map Join

使用场景：适用于一张表十分小，一张表很大的场景；
在 Map 端缓存多张表，提前处理业务逻辑，这样增加Map端业务，减少Reduce端数据的压力，尽可能减少数据倾斜；

posted @ 2019-05-31 20:53 小a的软件思考阅读(381) 评论(0) 收藏举报

刷新页面返回顶部