第一章第十六节:Elasticsearch之ik分词器
1、docker安装ik分词器
1:下载对应版的ik分词器安装包
https://github.com/medcl/elasticsearch-analysis-ik/releases/
2:上传会服务器并解压到ik文件夹
unzip elasticsearch-analysis-ik-7.4.2.zip -d ik/
3:把ik文件夹移动到elasticsearch的plugins挂载目录
mv ik /mydata/elasticsearch/plugins/
4:给ik文件夹赋予权限
chmod -R 777 /mydata/elasticsearch/plugins/ik
5:重启elasticsearch docker服务
docker restart elasticsearch
2、ik分词器使用
#细粒度分词
GET _analyze
{
"text": "北京市朝阳区",
"analyzer":"ik_max_word"
}
响应数据:
{
"tokens" : [
{
"token" : "北京市",
"start_offset" : 0,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "北京",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "市",
"start_offset" : 2,
"end_offset" : 3,
"type" : "CN_CHAR",
"position" : 2
},
{
"token" : "朝阳区",
"start_offset" : 3,
"end_offset" : 6,
"type" : "CN_WORD",
"position" : 3
},
{
"token" : "朝阳",
"start_offset" : 3,
"end_offset" : 5,
"type" : "CN_WORD",
"position" : 4
},
{
"token" : "区",
"start_offset" : 5,
"end_offset" : 6,
"type" : "CN_CHAR",
"position" : 5
}
]
}
#粗粒度分词
GET _analyze
{
"text": "北京市朝阳区",
"analyzer":"ik_smart"
}
响应数据:
{
"tokens" : [
{
"token" : "北京市",
"start_offset" : 0,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "朝阳区",
"start_offset" : 3,
"end_offset" : 6,
"type" : "CN_WORD",
"position" : 1
}
]
}
3、自定义分词库
1:在nginx的html目录下创建es文件夹,在es文件夹下创建fenci.txt文件
2:在fenci.txt里面写入内如,比如:乔碧罗 小阿峰
3:修改/mydata/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml
<entry key="remote_ext_dict">http://nginx_ip/es/fenci.txt</entry>
4:重启elasticsearch docker服务
fenci.txt:
测试:
GET _analyze
{
"text": "乔碧罗殿下喜欢小阿峰",
"analyzer":"ik_max_word"
}
响应数据:
{
"tokens" : [
{
"token" : "乔碧罗",
"start_offset" : 0,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "殿下",
"start_offset" : 3,
"end_offset" : 5,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "喜欢",
"start_offset" : 5,
"end_offset" : 7,
"type" : "CN_WORD",
"position" : 2
},
{
"token" : "小阿峰",
"start_offset" : 7,
"end_offset" : 10,
"type" : "CN_WORD",
"position" : 3
}
]
}
分类:
分布式项目(高级篇)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用