2013 年 5月 16 日随笔档案 - 海角七号的Blog

2013年5月16日

摘要：该测试代码对应了之前的文章Hadoop MapReduce 上利用Lucene实现分布式索引之前在完成一项任务时，需要检索几十万个questionID，提取对应的内容。这不能用简单的顺序查找或者折半查找实现。所以我设计了QuestionIndexMR，主要目的是根据questionID快速提取其所对应的value值（这里的设计相当于使用文件名，将文件内容提取出来。但是如果做传统意义上的索引检索，则是反过来的^_^），所以需要区分理解。 QuestionIndexMR的源码如下： package question.index;import hdfs.document.HDFSDocu... 阅读全文

posted @ 2013-05-16 21:26 海角七号的Blog 阅读(470) 评论(1) 推荐(0) 编辑

海角七号

公告