elasticsearch中文搜索优化

遇到的问题

分析器扮演着非常重要的角色，ES提供的有内置的分析器，社区也提供各种分析器插件（如中文的ik分析器）。分析器由以下几个组件构成

字符过滤器
主要职责是在分词器前过滤字符流，在源字符流中添加、删除、替换字符。一个分析器中可以有0个或多个字符过滤器。主要包括:html char filter、mapping char filter等
分词器
主要职责是将接收到的字符流，按照某些规则切分成若干个“词”，并记录这些“词”在源字符串中的位置。分析器中有且只能有一个分词器。
分词过滤器
主要职责是将分好的“词”进行某种规则的过滤，可以添加、移除、替换“词”，但是不能修改“词”在源字符串中的相对位置。常用的分词过滤器包括:大小写转换过滤器、停用词过滤器、同义词过滤器、拼音过滤器

ik分词器介绍
优化规则：索引时，为了提供索引的覆盖范围，通常会采用ik_max_word分析器，会以最细粒度分词索引，搜索时为了提高搜索准确度，会采用ik_smart分析器，会以粗粒度分词。
mapping例子

    "arttitle": {
            "type": "text",
            "analyzer": "ik_max_word",
            "search_analyzer": "ik_smart"
        }

这已经可以解决上述问题一，前提是葡萄和葡萄糖都是关键词。然而在人们日常的搜索需求中，很多短语是相连的，却并不在我们的关键词中，这里我们的解决办法是提供特殊查询接口：短语查询。

直接指定分词器

POST _analyze
{
  "analyzer": "ik_max_word",
  "text":"你好世界"
}

指定索引中的字段

POST weipu/_analyze
{
  "field":"arttitle",
  "text":"hello world"
}

posted @ 2019-09-23 11:02 家迪的家阅读(2112) 评论(0) 收藏举报

刷新页面返回顶部