摘要:
@ 需求 有三个文件,里面记录着一些单词,请统计每个单词分别在每个文件出现的次数。 数据输入 期待输出 比如:atguigu c.txt-->2 b.txt-->2 a.txt-->3 分析 如果一个需求,一个MRjob无法完成,可以将需求拆分为若干Job,多个Job按照依赖关系依次执行! Job1 阅读全文
摘要:
@ 使用场景 Map Join 适用于一张表十分小、一张表很大的场景。 优点 思考:在Reduce 端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map 端业务,减少Reduce 端数据的压力,尽可能的减少数据倾斜。 具体办法:采用Distribut 阅读全文
摘要:
@ Reduce Join原理 Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组 阅读全文