摘要: 1. 实例描述 单表关联这个实例要求从给出的数据中寻找出所关心的数据,它是对原始数据所包含信息的挖掘。 实例中给出child-parent 表, 求出grandchild-grandparent表。 输入数据 file01: 希望输出为: 2. 设计思路 1. 在map阶段,将原数据进行分割,将pa 阅读全文
posted @ 2016-04-11 15:38 Amei1314 阅读(2087) 评论(0) 推荐(0) 编辑
摘要: 1. 设计思路 在MapReduce过程中自带有排序,可以使用这个默认的排序达到我们的目的。 MapReduce 是按照key值进行排序的,我们在Map过程中将读入的数据转化成IntWritable类型,然后作为Map的key值输出。 Reduce 阶段拿到的就是按照key值排序好的<key,val 阅读全文
posted @ 2016-04-11 10:13 Amei1314 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 1. 设计思路 去重,重点就是无论某个数据在文件中出现多少次,最后只是输出一次就可以。 根据这一点,我们联想到在reduce阶段数据输入形式是 <key, value list>,只要是key相同的,在shuffle阶段都会聚合在一起,所以只要在map阶段将要去重的数据作为key值就可以达到目的。 阅读全文
posted @ 2016-04-11 09:55 Amei1314 阅读(794) 评论(0) 推荐(0) 编辑