代码改变世界

Searcharoo —— 一个适合学习研究的搜索引擎项目

2009-09-29 21:49  Yin.P  阅读(1252)  评论(1编辑  收藏  举报

  最近两三个月以来花了很多时间在另一个项目上,很少有时间去研究其它的内容。最近项目的管理和开发等相关事务已经逐步地变得稳定和规律,总算是有点时间来看看数据挖掘、搜索引擎的相关内容了。

  这次我要介绍一套开源的搜索引擎项目,名字为Searcharoo,这个项目来自CodeProject,同时也有自己的一个网站(http://www.searcharoo.net/),在网站中可以下载其源码也可以看到每个版本间演化的详细介绍。这套搜索引擎不像Lucene和Nutch那样复杂,代码少很多,因此我认为它非常适合用于初学搜索技术。Searcharoo现在有7个版本,每个版本都可以分别下载,我们可以从第一个版本开始分析研究,一直到最后一个版本。这一点也是它利于学习的方便之处,我们可以从第一个最初始的最简单的版本开始,逐步了解每个版本的变化,以增量的方式去学习它。通过Searcharoo项目,我们可以了解到搜索引擎包含哪些技术和组件,这各部分之间是如何协同工作的,是如何一步一步的实现的,从第一个版本的最简单的本地的对特定文件的索引和搜索一直到后来更为复杂的对互联网如HTML文档、WORD文档、PPT文档、PDF文档、图像以及地图GPS信息等内容的索引;从最简单的HTML页面展示方式一起到后来的基于AJAX及SILVERLIGHT技术的展示方式,这些都是随着版本的逐步变化而改进的。可以说是麻雀虽小但五脏俱全,很利于研究学习。