摘要: @ 需求 有三个文件,里面记录着一些单词,请统计每个单词分别在每个文件出现的次数。 数据输入 期待输出 比如:atguigu c.txt-->2 b.txt-->2 a.txt-->3 分析 如果一个需求,一个MRjob无法完成,可以将需求拆分为若干Job,多个Job按照依赖关系依次执行! Job1 阅读全文
posted @ 2020-08-17 18:12 孙晨c 阅读(244) 评论(0) 推荐(0) 编辑
摘要: @ 使用场景 Map Join 适用于一张表十分小、一张表很大的场景。 优点 思考:在Reduce 端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map 端业务,减少Reduce 端数据的压力,尽可能的减少数据倾斜。 具体办法:采用Distribut 阅读全文
posted @ 2020-08-17 13:21 孙晨c 阅读(663) 评论(2) 推荐(0) 编辑
摘要: @ Reduce Join原理 Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组 阅读全文
posted @ 2020-08-17 13:12 孙晨c 阅读(768) 评论(0) 推荐(0) 编辑