摘要: 需求 测试数据 type.txt(type表) log.txt(log表) 注:数据均以TAB键划分 目标输出 实现方式一:Reducer端的join实现 思路 在Mapper阶段:将 type.txt 和 log.txt 放在同一个文件夹上,通过判断输入文件的路径来判断数据来自哪个表 对于type 阅读全文
posted @ 2018-11-19 13:55 linzch3 阅读(569) 评论(0) 推荐(0) 编辑
摘要: 什么是二次排序 待排序的数据具有多个字段,首先对第一个字段排序,再对第一字段相同的行按照第二字段排序,第二次排序不破坏第一次排序的结果,这个过程就称为二次排序。 如何在mapreduce中实现二次排序 mapreduce的工作原理 MR的工作原理如下图(如果看不清可右键新标签页查看): 图片部分数据 阅读全文
posted @ 2018-11-15 10:15 linzch3 阅读(3693) 评论(0) 推荐(0) 编辑