elasticsearch 中文分词
ik分词器-下载地址:https://github.com/medcl/elasticsearch-analysis-ik
拼音分词器-下载地址:https://github.com/medcl/elasticsearch-analysis-pinyin
ansj中文分词器-下载地址:https://github.com/NLPchina/elasticsearch-analysis-ansj/tags
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量 参考:https://www.cnblogs.com/lies-joker/p/4203788.html
elasticsearch 自带默认分词器,不指定的text类型会使用Standard Analyzer进行分词
Standard Analyzer 是默认的分析器。它提供了基于语法的标记化(基于Unicode文本分割算法),适用于大多数语言
ik分词器
ik_smart 分的很少
ik_max_word 分的很细
ansj中文分词器
index_ansj (建议索引使用) 是索引分词,尽可能分词处所有结果
query_ansj (建议搜索使用) 是搜索分词,是索引分词的子集,保证了准确率
dic_ansj 是用户自定义词典优先策略
拼音分词器
GET _analyze
{
"text": "刘德华",
"analyzer": "pinyin"
}
GET _analyze
{
"analyzer":"ik_smart",
"text":"中华人民共和国国歌"
}
GET _analyze
{
"analyzer":"ik_max_word",
"text":"中华人民共和国国歌"
}
GET _analyze
{
"analyzer":"query_ansj",
"text":"中华人民共和国国歌"
}
GET _analyze
{
"analyzer":"index_ansj",
"text":"中华人民共和国国歌"
}