Lucene学习笔记
1.全文检索
1)创建索引 三部曲:需要检索的数据(document)、分词技术(analyzer)、索引创建(indexer)
分词技术:标准分词
2)索引检索 四部曲:搜索关键字(keywords)、分词技术(analyzer)、检索索引(Search)、返回结果(documents)
2、Lucene数学模型
文档、域、词元
文档是Lucene索引和搜索的原子单位,文档为包含一个或多个域的容器,而域则依次包含“真正 的”被搜索内容,域值通过分词技术处理,得到多个词元。
一篇小说信息可以称为一个文档;小说信息又包含多个域,比如标题,作者、简介、最后更新时 间等;对标题这一个域采用分词技术,又可以等到一个或多个词元。
3、Lucene文件结构
层次结构
索引(Index):一个索引放在一个文件夹中
段(Segment):一个索引中可以有很多段,段与段之间是独立的,添加新的文档可能产生新 段,不同的段可以合并成一个新段
文档(Document):文档是创建索引的基本单位,不同的文档保存在不同的段中,一个段可以 包含多个文档
域(Field):一个文档包含不同类型的信息,可以拆分开索引
词(Term):词是索引的最小单位,是经过词法分析和语言处理后的数据
正向信息
正向信息就是按层次保存了索引一直到词的包含关系:
索引段文档域词
索引中包含了哪些段,每个段包含了哪些文档,每一篇文档包含了哪些域,每个域又包含了哪些词