摘要: 最近用了用Hadoop,要试从两个数据源读取数据再取交集的功能,查了一下就是Hadoop的DataJoin,大喜之下认真看看,网上搜一下相关贴子还不少(细看之后才知道都是抄《Hadoop in Action》的),不过这篇贴子(http://www.cnblogs.com/xuqiang/archive/2011/06/05/2073155.html)做的注解很通俗易懂,很好。试了一下书上的例子,困难重重(我用的是1.0.3)。不过回想起来主要碰到的是两个问题:库非要在${HADOOP_HOME}/lib/下才行,所以要做:cp ./contrib/datajoin/hadoop-datajo 阅读全文
posted @ 2012-08-21 22:28 双子靓星 阅读(350) 评论(0) 推荐(0) 编辑