六、分词
1、简介
一个tokenizer(分词器)接收一个字符流,将之分隔为独立的tokens(词元,通常是独立的单词),然后输出tokens流
2、如何查看一句话的分词结果:
POST _analyze { "analyzer":"standard" //指定分词器:现在使用的是标准分词器 "text":"我爱北京天安门" }
3、安装ik分词器 (可以对中文进行分词)
ik分词器的github地址:
https://github.com/medcl/elasticsearch-analysis-ik
1)由于elasticsearch容器启动时,指定了文件挂载:-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins
所以,只需要将ik分词器下载到 /mydata/elasticsearch/plugins,并进行解压
2)进入elasticsearch容器内部
docker exec -it fe25cc93c122 /bin/bash
3)使用ik分词器,查看分词结果
post _analyze { "analyzer":"standard", "text":"我爱吃西红柿" }
4、自定义扩展词库
网络上的流行新词,ik分词器则不支持,此时就需要扩展词库