eaglet

本博专注于基于微软技术的搜索相关技术
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2009年2月13日

摘要: 3.3.3 Term频率数据(.frq) Term频率数据文件(.frq文件)存储容纳了每一个term的文档列表,以及该term出现在该文档中的频率(出现次数frequency,如果omitTf设置为fals时才存储)。 阅读全文

posted @ 2009-02-13 14:56 eaglet 阅读(3182) 评论(0) 推荐(0) 编辑

摘要: 3.3 每个Segment包含的文件 阅读全文

posted @ 2009-02-13 14:49 eaglet 阅读(2391) 评论(0) 推荐(0) 编辑

摘要: Lucene使用文件扩展名标识不同的索引文件,文件名标识不同版本或者代(generation)的索引片段(segment)。如.fnm文件存储域Fields名称及其属性,.fdt存储文档各项域数据,.fdx存储文档在fdt中的偏移位置即其索引文件,.frq存储文档中term位置数据,.tii文件存储term字典,.tis文件存储term频率数据,.prx存储term接近度数据,.nrm存储调节因子数据,另外segments_X文件存储当前最新索引片段的信息,其中X为其最新修改版本,segments.gen存储当前版本即X值,这些文件的详细介绍上节已说过了。 阅读全文

posted @ 2009-02-13 14:37 eaglet 阅读(4094) 评论(0) 推荐(0) 编辑

摘要: 为了使用Lucene来索引数据,首先你得把它转换成一个纯文本(plain-text)tokens的数据流(stream),并通过它创建出Document对象,其包含的Fields成员容纳这些文本数据。一旦你准备好些Document对象,你就可以调用IndexWriter类的addDocument(Document)方法来传递这些对象到Lucene并写入索引中。当你做这些的时候,Lucene首先分析(analyzer)这些数据来使得它们更适合索引。详见《Lucene In Action》 阅读全文

posted @ 2009-02-13 14:28 eaglet 阅读(3411) 评论(2) 推荐(0) 编辑

摘要: Apache Lucene是一个高性能(high-performance)的全能的全文检索(full-featured text search engine)的搜索引擎框架库,完全(entirely)使用Java开发。它是一种技术(technology),适合于(suitable for)几乎(nearly)任何一种需要全文检索(full-text search)的应用,特别是跨平台(cross-platform)的应用。 阅读全文

posted @ 2009-02-13 14:05 eaglet 阅读(5477) 评论(0) 推荐(1) 编辑

摘要: 这是google 的两位创始人2000年左右在斯坦福大学发表的论文,文章讲述了google最初的设计目标和系统特性。转眼这么多年过去了,google 已经从一个很小的初创公司成长为世界上最大的互联网公司。今天偶然从互联网上搜到这篇文章,感慨良多,让我们一起来回顾这个互联网巨头的青涩时代吧。 转载了文章的原文 阅读全文

posted @ 2009-02-13 09:19 eaglet 阅读(2332) 评论(2) 推荐(1) 编辑