2020 年 8月 1 日随笔档案 - 未来相濡以沫

2020年8月1日

摘要：一、概念 Reduce Join工作原理 1、Map端的主要工作是：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。 2、Reduce端的主要工作是：在Reduce端以连接字段作为key的分组已经完成，阅读全文

posted @ 2020-08-01 20:14 未来相濡以沫阅读(227) 评论(0) 推荐(0) 编辑

Map Join与计数器

摘要：一、概念 1、Map Join： Map Join适用于一张表十分小、一张表很大的场景,然后两张表还有关联二、项目介绍 1、待处理文本 order.txt订单信息表里记录着订单ID，商品ID，订单销量(模拟当大表) pd.txt商品信息表里记录着商品ID，商品名称(模拟当小表，小表直接加入缓存) 阅读全文

posted @ 2020-08-01 19:40 未来相濡以沫阅读(207) 评论(0) 推荐(0) 编辑

Combiner合并

摘要：一、概念 1、Combiner是MapReduce程序中Mapper和Reduce之外的一种组件 2、Combiner组件的父类就是Reducer 3、Combiner和Reduce的区别主要在于运行位置 Combiner是在每一个MapTask所在的节点运行 Reduce是在接收全局所有Mappe 阅读全文

posted @ 2020-08-01 17:10 未来相濡以沫阅读(249) 评论(0) 推荐(0) 编辑

分区(partition)和全排序(WritableComparable)

摘要：一、概念 1、分区： Hadoop默认分区是根据key的hashCode对ReduceTask个数取模得到的，用户无法控制哪个key存储到哪个分区。想要控制哪个key存储到哪个分区，需要自定义类继承Partitioner<KEY, VALUE>，泛型KEY, VALUE分别对应Mapper里的输阅读全文

posted @ 2020-08-01 16:33 未来相濡以沫阅读(460) 评论(0) 推荐(0) 编辑