ElasticSearch学习笔记——ik分词添加词库
前置条件是安装ik分词,请参考
1.在ik分词的config下添加词库文件
1 2 | ~ /software/apache/elasticsearch-6 .2.4 /config/analysis-ik $ ls | grep mydic.dic mydic.dic |
内容为
1 | 我给祖国献石油 |
2.配置词库路径,编辑IKAnalyzer.cfg.xml配置文件,添加新增的词库
3.重启es
4.测试
data.json
1 2 3 4 | { "analyzer" : "ik_max_word" , "text" : "我给祖国献石油" } |
添加之后的ik分词结果
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 | curl -H 'Content-Type: application/json' http: //localhost :9200 /_analyze ?pretty= true -d@data.json { "tokens" : [ { "token" : "我" , "start_offset" : 0, "end_offset" : 1, "type" : "CN_CHAR" , "position" : 0 }, { "token" : "给" , "start_offset" : 1, "end_offset" : 2, "type" : "CN_CHAR" , "position" : 1 }, { "token" : "祖国" , "start_offset" : 2, "end_offset" : 4, "type" : "CN_WORD" , "position" : 2 }, { "token" : "献" , "start_offset" : 4, "end_offset" : 5, "type" : "CN_CHAR" , "position" : 3 }, { "token" : "石油" , "start_offset" : 5, "end_offset" : 7, "type" : "CN_WORD" , "position" : 4 } ] } |
添加之后的ik分词结果,分词结果的tokens中增加了 "我给祖国献石油"
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 | curl -H 'Content-Type: application/json' http: //localhost :9200 /_analyze ?pretty= true -d@data.json { "tokens" : [ { "token" : "我给祖国献石油" , "start_offset" : 0, "end_offset" : 7, "type" : "CN_WORD" , "position" : 0 }, { "token" : "祖国" , "start_offset" : 2, "end_offset" : 4, "type" : "CN_WORD" , "position" : 1 }, { "token" : "献" , "start_offset" : 4, "end_offset" : 5, "type" : "CN_CHAR" , "position" : 2 }, { "token" : "石油" , "start_offset" : 5, "end_offset" : 7, "type" : "CN_WORD" , "position" : 3 } ] } |
本文只发表于博客园和tonglin0325的博客,作者:tonglin0325,转载请注明原文链接:https://www.cnblogs.com/tonglin0325/p/14246882.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 字符编码:从基础到乱码解决
2017-01-07 Java多线程——线程范围内共享变量和ThreadLocal