浙林龙哥

   :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

 

Lucene 是一个基于 Java 的全文索引工具包,Lucene的贡献者 Doug Cutting 是一位资深全文索引/检索专家,曾经是 V-Twin 搜索引擎(Apple 的 Copland 操作系统的成就之一)的主要开发者,后在 Excite 担任高级系统架构设计师,目前从事于一些 Internet 底层架构的研究。他贡献出的 Lucene 的目标是为各种中小型应用程序加入全文检索功能。

Lucene 的发展历程:早先发布在作者自己的 www.lucene.com,后来发布在 SourceForge,2001年年底成为 APACHE 基金会 Jakarta 的一个子项目

已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎,比较著名的有:

  • Jive:WEB论坛系统;
  • Eyebrows:邮件列表 HTML 归档/浏览/查询系统,本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是 EyeBrows 系统的主要开发者之一,而 EyeBrows 已经成为目前 APACHE 项目的主要邮件列表归档系统;
  • Cocoon:基于 XML 的 Web 发布框架,全文检索部分使用了Lucene;
  • Eclipse:基于 Java 的开放开发平台,帮助部分的全文索引使用了 Lucene。

以上文字源于车东的介绍,原文在:http://www.chedong.com/tech/lucene.html(车东声明该文章可以自由转载,但必须注明作者、出处以及他的声明)

Lucene 本身不支持中文的索引,但它良好的架构设计,使得只需根据语言词法分析接口,增加一个中文解析器即可实现中文的索引。这一工作是由车东完成的:WebLucene 中提供了 CJKTokenizer,可以分析东亚文字。

NLucene 是将 Lucene 从 Java 移植到 .NET 的一个 SourceForge 项目,它从 Lucene 1.2 版本转化而来。

因为 NLucene 项目已经有接近两年时间没有新版本推出了,但 Lucene 却一直在发展,终于有人“等不下去了”,于是又有了 Lucene .NET,它是从 Lucene 1.3 版本移植来的。

但由于 CJKTokenizer 不是 Lucene 本身自带的,所以无论是 NLucene,还是 Lucene .NET 都没有实现中文的词法分析器,也就是说它们现在还不支持中文的全文索引。

但有了 NLucene、Lucene .NET 以及车东 Java CJKTokenizer 所作的工作,相信支持中文的 Lucene .NET 很快就会出现。

posted on 2004-06-15 21:22  浙林龙哥  阅读(2321)  评论(0编辑  收藏  举报