摘要:
搜索引擎基本框架图上面是老师上课时给出的搜索引擎基本框架图,主要分为以下三个基本模块: Web信息采集模块 目前有很多的Open Source爬虫工具,如Weblech(http://weblech.sourceforge.net/)博士师兄推荐的工具,使用起来比较简单,容易上手,Nutch(http://lucene.apache.org/nutch/)是一个基于Lucene的,类似于Google的解决方案,Larbin,Heritrix,WebSpinx(感觉这个工具也不错,有可视化界面,并且定制功能也特别的强大,准备继续研究)等等。利用这些现有的开源工具(当然也可以利用一些开发包自己.. 阅读全文