elasticsearch知识点
1、分析:数据转化的过程。
两个转化过程-----传入文档中的数据转化程倒排序索引
-----查询文本转化成可被搜索的词
2、分析器:承担分析(数据转化)的工作
组成:一个分词器(tokenizer)+零个或多个标记过滤器(token filter)+零个或多个字符映射器(charater mappper)
3、分词器:分割,把文本分割成多个标记(token)形成标记流(token stream)
具体过程:把分割的词加上一些额外信息,比如该词在原始文本中的位置和长度
4、过滤器:用来处理(分词器产生的)标记
小写过滤器(lowercase filter):把所有的标记变成小写
同义词过滤器(synonyms filter):基于基本的同义词规则,把一个标记换成另一个同义词的标记
多语言次干提取过滤器(multiple language stemming filter):减少标记(实际上是标记中的文本部分),得到词根或者基本形式,即词干
5、字符映射器:工作在分词器之前,对未经分析的文本起作用。比如从文本的整体部分去除HTML标签