2020 年 8月 17 日随笔档案 - 孙晨c

2020年8月17日

摘要： @ 需求有三个文件，里面记录着一些单词，请统计每个单词分别在每个文件出现的次数。数据输入期待输出比如：atguigu c.txt-->2 b.txt-->2 a.txt-->3 分析如果一个需求，一个MRjob无法完成，可以将需求拆分为若干Job，多个Job按照依赖关系依次执行！ Job1 阅读全文

posted @ 2020-08-17 18:12 孙晨c 阅读(244) 评论(0) 推荐(0) 编辑

MapReduce之MapJoin案例

摘要： @ 使用场景 Map Join 适用于一张表十分小、一张表很大的场景。优点思考：在Reduce 端处理过多的表，非常容易产生数据倾斜。怎么办？在Map端缓存多张表，提前处理业务逻辑，这样增加Map 端业务，减少Reduce 端数据的压力，尽可能的减少数据倾斜。具体办法：采用Distribut 阅读全文

posted @ 2020-08-17 13:21 孙晨c 阅读(663) 评论(2) 推荐(0) 编辑

MapReduce之ReduceJoin案例

摘要： @ Reduce Join原理 Map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。 Reduce端的主要工作：在Reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组阅读全文

posted @ 2020-08-17 13:12 孙晨c 阅读(768) 评论(0) 推荐(0) 编辑

Sun's Blog-专注于阅读

嘿，青年，你想成什么样的人？

公告