我是2004年7月份开始做搜索引擎的,到现在也快四年了,期间虽然做过一些和搜索引擎没有关系的杂事,但是基本上算没有中断过。但是总感觉自己对这个东西的理解还是不够深刻,受一个朋友要自己做操作系统的启发,我萌生了自己做一个简单的搜索引擎的想法。我知道自己的缺点,我的缺点就是想法太多,付诸实施的却很少,大部分都是想一想然后就放弃了。我希望这次能够改变我以往的风格,能够把这个事情坚持下去。和以往不同不同的是,我希望以博客的形式,把我这次开发的过程完整的记录下来。

废话不说,先对要做得事情做一个计划吧。


第一步,首先做搜索引擎的核心,做一个全文的引擎,把倒排表建起来。
第二步,倒排表建立好以后,需要做一个查询系统,能支持与或非三种操作,支持纯与条件下的差错查询。
第三步,相关性的排序。

这次算是Version1吧,这次不涉及的东西是蜘蛛,html内容分析提取,中文分词。 OK, Let's go!

(第一个版本我就一个人搞定了,以后如果继续做的话,希望有识之士能够加入。等作到一定的时候,我会申请一个网站,把所有的源代码都公布出来。希望能做出一个中国人自己的Mini版本的Lucene。)