ES 6中分词器
ES 6中分词器:
Standard 分词器:适用于自然语言文本,能够识别单词、数字、电子邮件地址和 URL。
特点:
识别单词:能够识别常见的单词边界。
处理标点符号:会忽略大多数标点符号,但保留电子邮件地址和 URL。
处理数字:能够识别并保留数字。
处理特殊字符:能够处理一些特殊字符,如连字符和撇号。
Simple 分词器:简单地按非字母字符分割文本,并将所有字母转换为小写。
特点:
简单分割:只按非字母字符分割。小写转换:将所有字母转换为小写。
不处理数字:数字被视为非字母字符,会被分割掉。
WhiteSpace 分词器:仅按空格分割文本,保留所有字符。
特点:
按空格分割:只按空格分割文本。
保留所有字符:不忽略任何字符,包括标点符号和数字。
Keyword 分词器:将整个输入文本作为一个单一的词元处理,不分词。
特点:
不分词:将整个输入文本作为一个词元处理。
保留原样:不进行任何转换或修改。
ik_smart:将文本最大程度地切分成独立的词汇
ik_max_word:这种模式结合了理解歧义和未知词的算法,对文本进行词典分词的同时,也会智能识别词汇的边界,从而提高分词的准确性。
分类:
C#高级语法
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)