Hadoop join

一、Map端的主要工作

为来自不同表或文件的key/value对，打标签以区别不同来源的记录。

然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。

二、Reduce端的主要工作

在Reduce端以连接字段作为key的分组已经完成，

我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开，

最后进行合并就ok了。

posted @ 2020-09-08 22:07 市丸银阅读(117) 评论(0) 收藏举报

刷新页面返回顶部