Lucene学习笔记

1.全文检索

  1)创建索引 三部曲:需要检索的数据(document)、分词技术(analyzer)、索引创建(indexer)

  分词技术:标准分词

  2)索引检索 四部曲:搜索关键字(keywords)、分词技术(analyzer)、检索索引(Search)、返回结果(documents)

2、Lucene数学模型

    文档、域、词元

    文档是Lucene索引和搜索的原子单位,文档为包含一个或多个域的容器,而域则依次包含“真正         的”被搜索内容,域值通过分词技术处理,得到多个词元。

    一篇小说信息可以称为一个文档;小说信息又包含多个域,比如标题,作者、简介、最后更新时     间等;对标题这一个域采用分词技术,又可以等到一个或多个词元。

3、Lucene文件结构

    层次结构

    索引(Index):一个索引放在一个文件夹中
    段(Segment):一个索引中可以有很多段,段与段之间是独立的,添加新的文档可能产生新       段,不同的段可以合并成一个新段
    文档(Document):文档是创建索引的基本单位,不同的文档保存在不同的段中,一个段可以     包含多个文档
    域(Field):一个文档包含不同类型的信息,可以拆分开索引
    词(Term):词是索引的最小单位,是经过词法分析和语言处理后的数据

    正向信息

    正向信息就是按层次保存了索引一直到词的包含关系:

    索引段文档域词

    索引中包含了哪些段,每个段包含了哪些文档,每一篇文档包含了哪些域,每个域又包含了哪些词

posted @ 2016-11-19 15:15  剑雨逍遥  阅读(94)  评论(0)    收藏  举报