Elasticsearch之ik分词器

一、安装ik分词器

方法一:

下载分词器源码

github地址 : https://github.com/medcl/elasticsearch-analysis-ik

编译

mvn clean package

安装

cp target/releases/elasticsearch-analysis-ik-{version}.zip your-es-root/plugins/ik \
&& cd your-es-root/plugins/ik \
&& unzip your-es-root/plugins/ik/elasticsearch-analysis-ik-{version}.zip
方法二(elasticsearch6.3.x之后的版本):

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v{version}/elasticsearch-analysis-ik-{version}.zip

二、扩充ik分词器词库

  • 进入config路径

进入elasticsearch的plugin/ik/config或进入elasticsearch的根目录下的config文件夹找到ik文件夹进入

  • 创建以.dic为后缀的字典文件。

在建立的时候一定要注意文本的报错格式,请保存为utf-8格式的,其他格式不能使用。文件如果在linux中通过vi生成,则不用管格式。可以直接使用。

  • 建立好后,在里面输入我们的扩展词语。每个扩展词语一行。
  • 维护好字典后,编辑IKAnalyzer.cfg.xml。
<properties>
  <comment>IK Analyzer 扩展配置</comment>
 
  <!--用户可以在这里配置自己的扩展字典,多个字典使用;号进行隔开 -->
  <entry key="ext_dict">custom.dic</entry>
 
  <!--用户可以在这里配置自己的扩展停止词字典-->
  <entry key="ext_stopwords">custom.dic</entry>

</properties>

所谓停止词字典,就是说如果遇到该词请不要认为是一个词。

  • 重启elastcsearch
posted @ 2021-02-02 13:57  believexin  阅读(82)  评论(0编辑  收藏  举报