六、分词

1、简介

一个tokenizer(分词器)接收一个字符流,将之分隔为独立的tokens(词元,通常是独立的单词),然后输出tokens流

2、如何查看一句话的分词结果:

POST _analyze
{
    "analyzer":"standard"  //指定分词器:现在使用的是标准分词器
    "text":"我爱北京天安门"
}

3、安装ik分词器 (可以对中文进行分词)

ik分词器的github地址:

https://github.com/medcl/elasticsearch-analysis-ik

1)由于elasticsearch容器启动时,指定了文件挂载:-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins

所以,只需要将ik分词器下载到 /mydata/elasticsearch/plugins,并进行解压

2)进入elasticsearch容器内部

docker exec -it fe25cc93c122 /bin/bash

3)使用ik分词器,查看分词结果

post _analyze
{
  "analyzer":"standard",
  "text":"我爱吃西红柿"
}

4、自定义扩展词库

网络上的流行新词,ik分词器则不支持,此时就需要扩展词库