摘要: 最近在准备抽取数据的工作。有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集。id数据集合中每一个行就是一个id的字符串(Reduce side join要在每行的行尾加“,”号,而Map side join不必,如果加了也可以处理掉),类似,500GB的数据 阅读全文
posted @ 2013-09-15 22:22 九天高远 阅读(3899) 评论(0) 推荐(0) 编辑