博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

Lucene探悉

Posted on 2006-05-31 00:26  owen  阅读(234)  评论(0编辑  收藏  举报


1.引言
    
Lucene是一个基于Java的全文检索工具包。Lucene索引的基本单位是Document。它认为Document由若干Field(字段)构成,比如文章的URL, title, abstract, full text, etc. Lucene并不要求所有的文章都包含同样的字段,也就是说,允许不同文章包含不同的字段。文章中的一个单词称为一个Term. Term由两部分构成:单词所在的field和单词文本本身。Lucene的主要功能体现在三个Java包上:org.apache.lucene.analysis, org.apache.lucene.index, org.apache.lucene.search. 这三个包分别完成文档解析、文档索引和检索功能。其它的Java包都是辅助性的。其中Index部分又是整个软件包的核心。


(待续)