lucene 文件格式分析

转载http://blog.csdn.net/devfan/article/details/4436222

segment
每个segment代表lucene一个完整的索引段。通常一个索引中包含了多个segment。每个segment都有统一的前缀,前缀名由Document的数量转成36进制后,在前面加“_”而构成的。通常一个完整索引中,有且只有一个没有后缀名的segment文件,它记录了当前索引中所有的segment的信息。

.fnm
此文件包含了Document中的所有field名称

.fdx和.fdt
是综合使用的两类文件,其中.fdt存储了设置了Store.YES属性的field的数据。而.fdx是一个索引,存储Document在.fdt中的位置

.tii和.tis
.tis存储分词后的词条(term),而.tii就是它的索引文件,表明了每个.tis文件中词条的位置

deletable
作用相当于回收站,当文档在被删除后,会首先在deletable中保留一条记录,要真正删除时,才将索引移出

复合索引格式.cfs
在IndexWriter中有个属性useCompoundFile,默认为true即默认采用复合索引格式保存索引的,其含义是是否用复合索引格式来保存索引。索引的内容可能非常大文件可能非常多,如各这样系统打开文件数量巨大将消耗系统大量资源。因此lucene提供能一种单一索引格式。

posted @ 2013-04-23 14:15  涵秋  阅读(199)  评论(0编辑  收藏  举报