Lucene 4.0 发布
Apache项目近日发布了Lucene 4.0版本。
Apache Lucene是一个基于Java的、高性能的全文检索引擎,你可以利用它来为你的应用程序加入索引和检索功能。Lucene是目前最为流行的基于 Java 开源全文检索工具包。
Apache Lucene 4.0的主要特新包括:
- 针对词(term)、文章列表、存储字段、词语向量(term vector)的索引格式可通过Codec API来实现定制。你可以从提供的实现中选择,也可以自定义索引格式。
- 新的doc值,用于存储每个文档的类型值。
- 现在当应用程序使用多线程进行索引时,IndexWriter同时flushes segments到磁盘,从而显著改善了性能。
- 添加了新的索引统计。
- 新的默认词典/index(BlockTree)索引共享前缀。
- 索引词语不再局限于UTF-16字符,可以是编码为字节数组的任意二进制值,默认情况下,被编码为UTF-8。
- 显著改善了搜索中使用过滤器的性能。
- 基于文件系统的目录能够限制合并线程的IO速率,以减少合并和搜索中的IO争用。
- 添加了一些备用的编解码器和组件。
- FuzzyQuery速度比之前版本快了100-200倍。
- 添加了一个新的拼写检查器DirectSpellChecker。
- 提供了一个模块化的API,重组了之前分散在Lucene核心、发布版本和Solr中的组件,如Analyzers、Queries等。
From:Apache Lucene 4.0 released
下载地址: