Elasticsearch搜索引擎学习笔记(四)
分词器
内置分词器
standard:默认分词,单词会被拆分,大小会转换为小写。
simple:按照非字母分词。大写转为小写。
whitespace:按照空格分词。忽略大小写。
stop:去除无意义单词,比如the/a/an/is…
keyword:不做分词。把整个文本作为一个单独的关键词。
接口
POST /_analyze
{
"analyzer": "standard",
"text": "text文本"
}
POST /my_doc/_analyze
{
"analyzer": "standard",
"field": "name",
"text": "text文本"
}
中文分词器
es内置分词器不支持对中文拆分,会将中文的每一个汉字都拆开,这不满足需求,所以需要安装中文分词插件。
https://github.com/medcl/elasticsearch-analysis-ik下载对应es版本的。
解压 unzip elasticsearch-analysis-ik-6.4.3.zip -d /usr/local/elasticsearch-6.4.3/plugins/ik
重启es
测试一下
可以拆分成下面这些
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 | { "tokens" : [ { "token" : "上下班" , "start_offset" : 0, "end_offset" : 3, "type" : "CN_WORD" , "position" : 0 }, { "token" : "上下" , "start_offset" : 0, "end_offset" : 2, "type" : "CN_WORD" , "position" : 1 }, { "token" : "下班" , "start_offset" : 1, "end_offset" : 3, "type" : "CN_WORD" , "position" : 2 }, { "token" : "班车" , "start_offset" : 2, "end_offset" : 4, "type" : "CN_WORD" , "position" : 3 }, { "token" : "车流量" , "start_offset" : 3, "end_offset" : 6, "type" : "CN_WORD" , "position" : 4 }, { "token" : "车流" , "start_offset" : 3, "end_offset" : 5, "type" : "CN_WORD" , "position" : 5 }, { "token" : "流量" , "start_offset" : 4, "end_offset" : 6, "type" : "CN_WORD" , "position" : 6 }, { "token" : "很大" , "start_offset" : 6, "end_offset" : 8, "type" : "CN_WORD" , "position" : 7 } ] } |
自定义中文词库
有些网络用语或专有名词不能被当成一个词,所以需要我们自定义。
1、vim /usr/local/elasticsearch-6.4.3/plugins/ik/config/IKAnalyzer.cfg.xml
2、在IKAnalyzer.cfg.xml同级创建custom.dic
3、在custom.dic中添加自定义中文词语
4、重启。现在es就不会把慕课网拆分成3个单独的字了
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· C++代码改造为UTF-8编码问题的总结
· DeepSeek 解答了困扰我五年的技术问题
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· 【全网最全教程】使用最强DeepSeekR1+联网的火山引擎,没有生成长度限制,DeepSeek本体