Lucene学习笔记

1.全文检索

1）创建索引三部曲：需要检索的数据（document）、分词技术（analyzer）、索引创建（indexer）

分词技术：标准分词

2）索引检索四部曲：搜索关键字（keywords）、分词技术（analyzer）、检索索引（Search）、返回结果（documents）

2、Lucene数学模型

文档、域、词元

文档是Lucene索引和搜索的原子单位，文档为包含一个或多个域的容器，而域则依次包含“真正的”被搜索内容，域值通过分词技术处理，得到多个词元。

一篇小说信息可以称为一个文档；小说信息又包含多个域，比如标题，作者、简介、最后更新时间等；对标题这一个域采用分词技术，又可以等到一个或多个词元。

3、Lucene文件结构

层次结构

索引（Index）：一个索引放在一个文件夹中
段（Segment）：一个索引中可以有很多段，段与段之间是独立的，添加新的文档可能产生新段，不同的段可以合并成一个新段
文档（Document）：文档是创建索引的基本单位，不同的文档保存在不同的段中，一个段可以包含多个文档
域（Field）：一个文档包含不同类型的信息，可以拆分开索引
词（Term）：词是索引的最小单位，是经过词法分析和语言处理后的数据

正向信息

正向信息就是按层次保存了索引一直到词的包含关系：

索引段文档域词

索引中包含了哪些段，每个段包含了哪些文档，每一篇文档包含了哪些域，每个域又包含了哪些词

posted @ 2016-11-19 15:15 剑雨逍遥阅读(97) 评论(0) 收藏举报

刷新页面返回顶部

Lucene学习笔记

公告