摘要: 题目 有两个文件A和B,两个文件中都有几百万行数字,现在需要找出A文件和B文件中数字集合的交集、并集、以及A对B的差集。 简单说一下思路: 这个问题关键在于key和value的设计。这里我将文件中的数字设置为key,将文件名称设置为value。这样在reduce阶段很容易就能找出A、B两个文件中数字的交并差集了。 并集就是reduce阶段能输出的全部记录;交集则需要做下过滤,即一个记录中的val... 阅读全文
posted @ 2017-09-21 22:18 robin·张 阅读(1334) 评论(1) 推荐(0) 编辑