2014年7月8日

nutch学习笔记(二)入门篇

摘要: 上一篇博客中叙述了如何利用nutch爬取网页的过程。本篇则讲述建立逆向索引以及与solr结合展示结果的方法。1. 建立逆向索引 所谓的逆向索引,其实就是从词(字符串)到文本的映射。一般而言,在爬取网页后,我们会自然而然的会得到一种索引——从文本到词的映射,即查询条件为文本,查询结果为该文本中包含哪... 阅读全文

posted @ 2014-07-08 19:05 husoling 阅读(217) 评论(0) 推荐(0) 编辑

导航