摘要:
一、概念 Reduce Join工作原理 1、Map端的主要工作是:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 2、Reduce端的主要工作是:在Reduce端以连接字段作为key的分组已经完成, 阅读全文
摘要:
一、概念 1、Map Join: Map Join适用于一张表十分小、一张表很大的场景,然后两张表还有关联 二、项目介绍 1、待处理文本 order.txt订单信息表里记录着订单ID,商品ID,订单销量(模拟当大表) pd.txt商品信息表里记录着商品ID,商品名称(模拟当小表,小表直接加入缓存) 阅读全文
摘要:
一、概念 1、Combiner是MapReduce程序中Mapper和Reduce之外的一种组件 2、Combiner组件的父类就是Reducer 3、Combiner和Reduce的区别主要在于运行位置 Combiner是在每一个MapTask所在的节点运行 Reduce是在接收全局所有Mappe 阅读全文
摘要:
一、概念 1、分区: Hadoop默认分区是根据key的hashCode对ReduceTask个数取模得到的,用户无法控制哪个key存储到哪个分区。 想要控制哪个key存储到哪个分区,需要自定义类继承Partitioner<KEY, VALUE>, 泛型KEY, VALUE分别对应Mapper里的输 阅读全文