Lucene
Lucene
是apache下的一个开源的全文检索引擎工具包。它为软件开发人员提供一个简单易用的工具包(类库),以方便的在目标系统中实现全文检索的功能。
全文检索
首先将要查询的目标文档中的词提取出来,组成索引,通过查询索引达到搜索目标文档的目的。这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)。
Lucene实现全文检索的流程
全文检索的流程分为两大部分:索引流程、搜索流程。
l 索引流程:即采集数据à构建文档对象à分析文档(分词)à创建索引。
l 搜索流程:即用户通过搜索界面à创建查询à执行搜索,搜索器从索引库搜索à渲染搜索结果。
全文检索概述 — 数据分类
- 结构化数据
具有固定格式或有限长度的数据
- 非结构化数据
不定长度或无固定格式的数据
- 半结构化数据
SELECT * FROM TABLENAME WHERE NAME LIKE ‘王%’
顺序扫描、全文检索
创建索引三部曲:需要检索的数据(Document)、分词技术(Analyzer)、 索引创建(Indexer)
...