初探elk @5 之 elasticsearch 分词器介绍

总结:分词就是 对 一段文字 进行合理的拆分。
概念介绍:分词分为读时分词和写时分词。
读时分词发生在用户查询时,ES 会即时地对用户输入的关键词进行分词,分词结果只存在内存中,当查询结束时,分词结果也会随即消失。而写时分词发生在文档写入时,ES 会对文档进行分词后,将结果存入倒排索引,该部分最终会以文件的形式存储于磁盘上,不会因查询结束或者 ES 重启而丢失。
写时分词器需要在 mapping 中指定,而且一经指定就不能再修改,若要修改必须新建索引。

分词一般在ES中有分词器处理。英文为Analyzer,它决定了分词的规则,Es默认自带了很多分词器,如:
Standard、english、Keyword、Whitespace等等。默认的分词器为Standard,通过它们各自的功能可组合
成你想要的分词规则。分词器具体详情可查看官网:[分词器](https://www.elastic.co/guide/en/elasticsearch/reference/7.2/analysis-standard-analyzer.html)
另外,在常用的中文分词器、拼音分词器、繁简体转换插件。国内用的就多的分别是:
[elasticsearch-analysis-ik](https://github.com/medcl/elasticsearch-analysis-ik)
[elasticsearch-analysis-pinyin](https://github.com/medcl/elasticsearch-analysis-pinyin)
[elasticsearch-analysis-stconvert](https://github.com/medcl/elasticsearch-analysis-stconvert)

常用分词器介绍
https://www.cnblogs.com/csxf/p/3722412.html
一般ik 用的比较多,合理选择 分词器,可以让 用户搜素体验更加好

倒排索引原理:

 倒排后结果:


 


 

posted @ 2019-07-18 11:48  川流不息&  阅读(316)  评论(0编辑  收藏  举报