6.ELASTICSEARCH~高级(二) - 一点零一的n次方

1、简介

一个tokenizer(分词器)接收一个字符流，将之分隔为独立的tokens(词元，通常是独立的单词)，然后输出tokens流

2、如何查看一句话的分词结果：

POST _analyze
{
    "analyzer":"standard"  //指定分词器：现在使用的是标准分词器
    "text":"我爱北京天安门"
}

3、安装ik分词器 (可以对中文进行分词)

ik分词器的github地址：

https://github.com/medcl/elasticsearch-analysis-ik

1)由于elasticsearch容器启动时，指定了文件挂载：-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins

所以，只需要将ik分词器下载到 /mydata/elasticsearch/plugins，并进行解压

2)进入elasticsearch容器内部

docker exec -it fe25cc93c122 /bin/bash

3)使用ik分词器，查看分词结果

post _analyze
{
  "analyzer":"standard",
  "text":"我爱吃西红柿"
}

4、自定义扩展词库

网络上的流行新词，ik分词器则不支持，此时就需要扩展词库

发表于 2023-07-21 16:30 一点零一的n次方阅读(7) 评论(0) 编辑收藏举报