Apache Lucene 4.0今日发布

经过了三年的开发努力,Apache Lucene 4.0终于发布了。



Apache Lucene是一个高性能,全功能的文本搜索引擎库,完全用Java编写的。这是一个技术适用于几乎
任何需要全文搜索,特别是跨平台的应用程序。

Apache Lucene 4.0版的亮点:

1. 索引格式支持条目、邮件列表、数据库存储的字段、条目矢量等格式,通过编码器API实现了可插拔。可以选择或自定义索引格式。

2. 矢量空间模型的相似度解耦(TF-IDF)。有附加模型(如BM25)、随机偏离、语言模型、基于信息的模型等。

3. IndexWriter支持并行写磁盘,适用于应用程序使用多线程建立索引的场景。

4. 每个文档的归一化因此不再局限于单个字节。

5. 增加了新的索引统计,包括条目或字段的令牌数等。

6. 新的默认字典索引(BlockTree)。

7. 索引的条目不再受UTF-16字符的限制。默认情况下,文本条目使用UTF-8编码。

8. 在搜索期间使用过滤器能获得更好的性能。

9. 替换了大量的编码器和组件。

10. 条目偏移量是可选的,被编码到邮件列表并可按位置检索。

11. 新的自动查询,返回所有文档包含的条目,条目由有限状态机自动提供。

12. 模糊查询的性能比上一版提高了100~200倍。

13. 新的拼写检查器。

14. 提供了各种内存数据结构,比如字典条目和字段缓存等。

 还有很多新特性,有兴趣的话,下载研究吧!

posted on 2012-10-13 10:33  YangJin  阅读(111)  评论(0编辑  收藏  举报