ES 6中分词器

ES 6中分词器:

Standard 分词器:适用于自然语言文本,能够识别单词、数字、电子邮件地址和 URL。
特点:
识别单词:能够识别常见的单词边界。
处理标点符号:会忽略大多数标点符号,但保留电子邮件地址和 URL。
处理数字:能够识别并保留数字。
处理特殊字符:能够处理一些特殊字符,如连字符和撇号。

Simple 分词器:简单地按非字母字符分割文本,并将所有字母转换为小写。
特点:
简单分割:只按非字母字符分割。小写转换:将所有字母转换为小写。
不处理数字:数字被视为非字母字符,会被分割掉。

WhiteSpace 分词器:仅按空格分割文本,保留所有字符。
特点:
按空格分割:只按空格分割文本。
保留所有字符:不忽略任何字符,包括标点符号和数字。

Keyword 分词器:将整个输入文本作为一个单一的词元处理,不分词。
特点:
不分词:将整个输入文本作为一个词元处理。
保留原样:不进行任何转换或修改。

ik_smart:将文本最大程度地切分成独立的词汇
ik_max_word:这种模式结合了理解歧义和未知词的算法,对文本进行词典分词的同时,也会智能识别词汇的边界,从而提高分词的准确性。

posted @   大树2  阅读(14)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示