摘要: Reduce端的联结 reduce端联结,又称repartitioned join(重分区联结)或者reparationed sort-merge join(重分区排序-合并联结) reduce侧联结的主要问题是,混洗阶段消耗过大。 先看几个术语与概念 data source:数据源(类似MySql 阅读全文
posted @ 2020-12-08 20:25 vlj 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 顺序链接MapReduce作业 形如:mapreduce-1 | mapreduce-2 | mapreduce-3 在run函数中,继续写新的job,再通过JobClient.runJob()进行调用 @Override public int run(String[] args) throws E 阅读全文
posted @ 2020-12-08 11:57 vlj 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 为何使用combiner 减少洗牌的键值对数量 缓解数据倾斜问题 combiner的设计 combiner在数据转换上必须与reducer等价 若Reducer仅处理分配型函数(最大值/最小值/求和/计数),可以使用reducer为combiner 其他:自己设计combiner和reducer 求 阅读全文
posted @ 2020-12-08 10:26 vlj 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 通过Unix命令使用Streaming 使用命令行方式的时候,输入数据必须为文本,并且每行被视为一个记录。若输入的格式是TextInputFormat,则流操作只会将值传递给mapper 提取第二列数据 input/output:指定输入输出目录 cut -f 2:只取第二列数据 -d ,:指定", 阅读全文
posted @ 2020-12-08 09:33 vlj 阅读(444) 评论(0) 推荐(0) 编辑