Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）

注意：基于lucene5.5.x版本

IK Analyzer是linliangyi2007的作品，再此表示感谢，他的博客地址：http://linliangyi2007.iteye.com/

IK Analyzer支持两种分词，一种是最细粒度分词（推荐使用，Ik默认采用最细粒度），还有一种的智能分词（测试了一下智能分词还没有lucene自带的分词准确，呵呵了）。

IKanalyzer目前最新版本只支持到lucene4.x、solr4.x，所以我们需要修改一下IKanalyzer的源码，让它支持lucene5.5版本。

这里提供由本人修改的兼容lucene5.x的IK Analyzer版本，下载地址：http://download.csdn.net/detail/eguid_1/9576005

注意：基于lucene5.5.2版本，采用jdk1.7环境，lucene6.x请使用jdk1.8，lucene5.5.x的API与之前的版本有些微的改变。

那么回归标题，为什么要使用中文分词器，原因就是lucene自带的分析器StandardAnalyzer虽然支持中文，但是分词分的不够细，对于某些明显的中文词语没有进行分词。

我将Analyzer分析器单独拿了出来进行独立处理（这么做有很多好处，就是我可以很轻松的扩展使用新的分词器）

其他源码完全不变，只需要改变AnalyzerServ的代码即可。

IK分词器默认有三个相关配置文件：

ext.dic（扩展词库）；

IKAnalyzer.cfg.xml（扩展词库及停词库配置）；

stopword.dic（停词）

（1）建立索引时使用：

//false-最细粒度分词；true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

indexWriterConfig = new IndexWriterConfig(analyzer);

（2）搜索时使用：

//false-最细粒度分词；true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

QueryBuilder parser = new QueryBuilder(analyzer);

posted @ 2016-07-14 14:58 eguid 阅读(420) 评论(0) 收藏举报

刷新页面返回顶部