IK分词器

IK分词器

分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱BNTang”会被分为"我”,"爱","BN","Tang",这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题,如果要使用中文,建议使用ik分词器!

IK提供了两个分词算法:ik_smartik_max_word,其中ik_ smart为最少切分, ik_max_word为最细粒度划分!一会我们测试!

验证是否安装成功可以通过elasticsearch-plugin list

进入Kibana控制台

ik_smart

  • 最少切分
GET _analyze
{
  "analyzer": "ik_smart",
  "text": "床前明月光"
}

ik_max_word

  • 最细粒度划分,穷尽词库的可能
GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "床前明月光"
}

这时我们输入小灰说Java

发现小灰给拆开了,这种自己需要的词,需要自己加入到分词器的字典中!

🐤ik分词器增加自己的配置

  • 进入到es的插件目录找到ik分词器中的config目录

IKAnalyzer.cfg.xml

编写自己的扩展配置文件,注入到配置文件当中即可

配置完毕之后环境重启,再次输入进行分词即可看到效果我这里就不贴图了

源文件:QQ群598347590,群文件 → ElasticSearch

posted @   BNTang  阅读(189)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具
点击右上角即可分享
微信分享提示