摘要:
系统功能需求:1.可自定义要搜索的网站列表;2.可对目标列表网站的网页内容进行检索。系统主要功能模块:网络蜘蛛:采集、解析并保存目标列表网站的内容(网页)。全文索引/检索:为目标列表网站内容建立索引,提供内容的全文检索。采取方案:网络蜘蛛——采用开源框架Heritrix,Heritrix是一个爬虫框架,可加如入一些可互换的组件。下载页面:http://crawler.archive.org/index.html。如何使用Heritrix可参考相关文献,也可笔者的《使用Heritrix爬虫爬取网页》。这里不再进行详细阐述。全文索引/检索——该部分基于Lucene实现的。Lucene是apache 阅读全文