Lucene

Lucene

apache下的一个开源的全文检索引擎工具包。它为软件开发人员提供一个简单易用的工具包(类库),以方便的在目标系统中实现全文检索的功能。

 

全文检索

首先将要查询的目标文档中的词提取出来,组成索引,通过查询索引达到搜索目标文档的目的。这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search

Lucene实现全文检索的流程

全文检索的流程分为两大部分:索引流程、搜索流程。

索引流程采集数据à构建文档对象à分析文档(分词)à创建索引

搜索流程:即用户通过搜索界面à创建查询à执行搜索,搜索器从索引库搜索à渲染搜索结果。

 

全文检索概述 — 数据分类

  • 结构化数据

具有固定格式或有限长度的数据

  • 非结构化数据

不定长度或无固定格式的数据

  • 半结构化数据

 

SELECT * FROM TABLENAME WHERE NAME LIKE ‘王%’

顺序扫描、全文检索

 

创建索引三部曲:需要检索的数据(Document)、分词技术(Analyzer)、 索引创建(Indexer)

 

 

 

 

...

posted on 2017-08-27 18:05  虫儿aqa  阅读(94)  评论(0编辑  收藏  举报

导航