Lucene 4.0 发布

Apache项目近日发布了Lucene 4.0版本。
Apache Lucene是一个基于Java的、高性能的全文检索引擎,你可以利用它来为你的应用程序加入索引和检索功能。Lucene是目前最为流行的基于 Java 开源全文检索工具包。


Apache Lucene 4.0的主要特新包括:


  • 针对词(term)、文章列表、存储字段、词语向量(term vector)的索引格式可通过Codec API来实现定制。你可以从提供的实现中选择,也可以自定义索引格式。
  • 新的doc值,用于存储每个文档的类型值。
  • 现在当应用程序使用多线程进行索引时,IndexWriter同时flushes segments到磁盘,从而显著改善了性能。
  • 添加了新的索引统计。
  • 新的默认词典/index(BlockTree)索引共享前缀。
  • 索引词语不再局限于UTF-16字符,可以是编码为字节数组的任意二进制值,默认情况下,被编码为UTF-8。
  • 显著改善了搜索中使用过滤器的性能。
  • 基于文件系统的目录能够限制合并线程的IO速率,以减少合并和搜索中的IO争用。
  • 添加了一些备用的编解码器和组件。
  • FuzzyQuery速度比之前版本快了100-200倍。
  • 添加了一个新的拼写检查器DirectSpellChecker。
  • 提供了一个模块化的API,重组了之前分散在Lucene核心、发布版本和Solr中的组件,如Analyzers、Queries等。

From:Apache Lucene 4.0 released

 

下载地址:


 


 

posted @ 2012-10-30 07:46  bluepoint2009  阅读(481)  评论(0编辑  收藏  举报