喵星之旅-狂奔的兔子-使用kibana对es进行查询

match系列

match关键字,相当于mysql数据库中的like查询,match查询的字段如果是text类型,那么text会被分词,match就会匹配分词,查询所有包含分词的doc文档,如果不是text类型的,那就是精确查询。

match:查询指定条件的数据,match会将查询的条件进行分词操作,然后doc文档中包含分词,就都会查询出来。
match_all:查询所有数据。
match_phrase:匹配短语,match是会查询所有包含分词的doc文档,而match_phrase则是匹配整个短语,才会返回对应的doc文档。但是这个与“ik_max_word”分词器有冲突,很可能失败,不排除有的版本可以。由于我选择的分词器就是“ik_max_word”,所以相关验证跳过。
match_phrase_prefix:匹配短语的前缀部分,这个只能使用在text类型字段。

# 查询bunny索引中title包含"提高效率"的数据,前提是该字段已经分词,并且会对查询条件进行分词。实际查询结果是包含“提高效率”,“提高”,“高效率”,“高效”,“效率”的数据。
GET /bunny/_search
{
  "query": {
    "match": {
      "title": "提高效率"
    }
  }
}

# 查询bunny索引中所有数据
get /bunny/_search
{
  "query": {
    "match_all": {}
  }
}


排序查询

elasticsearch支持对搜索结果排序,默认是根据相关度算分(_score)来排序。
不是所有字段都可以排序,只能是数字字段。

get /bunny/_search
{
  "query": {
    "match_all": {}
  },
  "sort":  [
    {
      "createTime": {
        "order": "desc"
      }
    }
  ]
}

分页查询

elasticsearch 默认情况下只返回top10的数据。而如果要查询更多数据就需要修改分页参数了。 elasticsearch中通过修改from、size参数来控制要返回的分页结果:

# 跳过80条数据,从第81条开始显示最多10条。如果是默认的应该是0,10.
GET /ky_technical_product/_search
{
  "query": {
    "match": {
      "title": "提高 效率"
    }
  } ,
  "from": 80, 
  "size": 10
}

bool查询

es bool 查询是把任意多个简单查询组合在一起,使用 must、should、must_not、filter 选项来表示简单查询之间的逻辑,每个选项都可以出现 0 次到多次。它是为了满足现实中比较复杂的查询需求,如需要在多个字段上查询多种多样的文本,并且根据一系列的标准来过滤。

bool query 主要通过下列 4 个选项来构建用户想要的布尔查询,每个选项的含义如下:

must:文档必须匹配,该选项下的查询条件,相当于逻辑运算的 AND,且参与文档相关度的评分。
should:文档可以匹配 should 选项下的查询条件也可以不匹配,相当于逻辑运算的 OR,且参与文档相关度的评分。
must_not:与 must 相反,匹配该选项下的查询条件的文档不会被返回;需要注意的是,must_not 语句不会影响评分,它的作用只是将不相关的文档排除。
filter:和 must 一样,匹配 filter 选项下的查询条件的文档才会被返回,但是 filter 不评分,只起到过滤功能,与 must_not 相反。

这里需要说明的是,每一个子查询都独自地计算文档的相关性得分。一旦他们的得分被计算出来, bool 查询就将这些得分进行合并并且返回一个代表整个布尔操作的得分。具体的得分规则在下面的评分计算章节中介绍。

must 语句必须匹配,但有多少 should 语句应该匹配呢?默认情况下,没有 should 语句是必须匹配的,但只有一个例外,那就是当没有 must 语句的时候,至少有一个 should 语句必须匹配。

计算规则

bool 查询采用“匹配越多越好(more_matches_is_better)”的机制,因此满足 must 和 should 子句的文档将会合并起来计算分值。
在 filter 子句查询中,分值将会都返回 0。
must_not 子句并不影响得分,它们存在的意义是排除已经被包含的文档。

如上所述,bool 查询的计算得分主要是 must 和 should 子句,它们的计算规则是,把所有符合 must 和 should 的子句得分加起来,然后乘以匹配子句的数量,再除以子句的总数。

# groundingState="已上架" and "category"<>"暂无" and "title"包含 "钻井" and ("createByName"包含"管理" or "content"包含"石油")。其中groundingState没有分词。
GET /bunny/_search
{
  "query": {
    "bool": {
      "filter": {
        "term": { "groundingState.keyword": "已上架" }
      },
      "must_not": {
        "term": { "category": "暂无" }
      },
      "must": {
        "match": { "title": "钻井" }
      },
      "should": [
        {
          "match": { "createByName": "管理" }
        },
        {
          "match": { "content": "石油" }
        }
      ]
    }
  }
}

高亮显示

GET /bunny/_search
{
  "query": {
    "match": {
      "title": "钻井"
    }
  },
   "highlight": {
    "fields": {
      "title": {
      }
    }
  }
}

elasticsearch 提供了如下高亮参数:

boundary_chars	包含每个边界字符的字符串。默认为,! ?\ \ n。
boundary_max_scan	扫描边界字符的距离。默认为20。
boundary_scanner	指定如何分割突出显示的片段,支持chars、sentence、word三种方式。
boundary_scanner_locale	用来设置搜索和确定单词边界的本地化设置,此参数使用语言标记的形式(“en-US”, “fr-FR”, “ja-JP”)
encoder	表示代码段应该是HTML编码的:默认(无编码)还是HTML (HTML-转义代码段文本,然后插入高亮标记)
fields	指定检索高亮显示的字段。可以使用通配符来指定字段。例如,可以指定comment_*来获取以comment_开头的所有文本和关键字字段的高亮显示。
force_source	根据源高亮显示。默认值为false。
fragmenter	指定文本应如何在突出显示片段中拆分:支持参数simple或者span。
fragment_offset	控制要开始突出显示的空白。仅在使用fvh highlighter时有效。
fragment_size	字符中突出显示的片段的大小。默认为100。
highlight_query	突出显示搜索查询之外的其他查询的匹配项。这在使用重打分查询时特别有用,因为默认情况下高亮显示不会考虑这些问题。
matched_fields	组合多个匹配结果以突出显示单个字段,对于使用不同方式分析同一字符串的多字段。所有的matched_fields必须将term_vector设置为with_positions_offsets,但是只有将匹配项组合到的字段才会被加载,因此只有将store设置为yes才能使该字段受益。只适用于fvh highlighter。
no_match_size	如果没有要突出显示的匹配片段,则希望从字段开头返回的文本量。默认为0(不返回任何内容)。
number_of_fragments	返回的片段的最大数量。如果片段的数量设置为0,则不会返回任何片段。相反,突出显示并返回整个字段内容。当需要突出显示短文本(如标题或地址),但不需要分段时,使用此配置非常方便。如果number_of_fragments为0,则忽略fragment_size。默认为5。
order	设置为score时,按分数对突出显示的片段进行排序。默认情况下,片段将按照它们在字段中出现的顺序输出(order:none)。将此选项设置为score将首先输出最相关的片段。每个高亮应用自己的逻辑来计算相关性得分。
phrase_limit	控制文档中所考虑的匹配短语的数量。防止fvh highlighter分析太多的短语和消耗太多的内存。提高限制会增加查询时间并消耗更多内存。默认为256。
pre_tags	与post_tags一起使用,定义用于突出显示文本的HTML标记。默认情况下,突出显示的文本被包装在和标记中。指定为字符串数组。
post_tags	与pre_tags一起使用,定义用于突出显示文本的HTML标记。默认情况下,突出显示的文本被包装在和标记中。指定为字符串数组。
require_field_match	默认情况下,只突出显示包含查询匹配的字段。将require_field_match设置为false以突出显示所有字段。默认值为true。
tags_schema	设置为使用内置标记模式的样式。
type	使用的高亮模式,可选项为unified、plain或fvh。默认为unified。

如果我们想使用自定义标签,在高亮属性中给需要高亮的字段加上 pre_tags 和 post_tags 即可。例如:

GET /bunny/_search
{
  "query": {
    "match": {
      "title": "钻井"
    }
  },
   "highlight": {
    "fields": {
      "title": {
        "pre_tags": ["<strong>"],
        "post_tags": ["</strong>"]
      }
    }
  }
}

关于搜索高亮,还需要掌握如何设置多字段搜索高亮。比如,搜索 title 字段的时候,我们期望 description 字段中的关键字也可以高亮,这时候就需要把 require_field_match 属性的取值设置为 fasle。require_field_match 的默认值为 true,只会高亮匹配的字段。多字段高亮的查询语句如下

GET /bunny/_search
{
  "query": {
    "match": {
      "title": "暂无 钻井"
    }
  },
   "highlight": {
    "require_field_match": "false",
    "fields": {
      "title": {
      },
      "category": {
      }
    }
  }
}

高亮返回结果只有匹配上的才会显示,高亮的字段要支持分词,可能是下面两种可能:

      "highlight" : {
          "title" : [
            "<em>钻井</em>优化新技术如何提高<em>钻井</em>效率"
          ],
          "category" : [
            "<em>暂无</em>"
          ]
        }


      "highlight" : {
          "title" : [
            "<em>钻井</em>"
          ]
        }

term查询

term query会去倒排索引中寻找确切的term,它并不知道分词器的存在,这种查询适合keyword、numeric、date等明确值的,分词的字段也可以使用。下面的title就是分词字段。

# 查询包含“提高效率”的,不分词。
GET /bunny/_search
{
  "query": {
    "term": {
      "title": "提高效率"
    }
  }
}

# title= "提高效率",严格相等的条件
GET /bunny/_search
{
  "query": {
    "term": {
      "title.keyword": "提高效率" 
    }
  }
}

# 包含多个值的用terms
GET /bunny/_search
{
  "query": {
    "terms": {
      "title": ["效率" ,"提高"]
    }
  }
}

权重设置

需要根据用户输入的查询关键字同时去匹配多个字段,并且希望对匹配字段的权重做不同的设置,比如同时去匹配公司名称和公司简介,这里一般需要提升公司名称匹配的权重,这样得出的相关性评分才会更准确。
在ES中,我们可以通过boost参数来控制多字段查询的权重。

boost是一个用来修改文档的相关性的参数,默认值是1。可以通过设置不同的值,提升该字段在相关性评分的权重。

boost有两种类型:索引期间boost、查询期间boost。

创建索引时指定的boost参数是存储在索引中的,修改boost值唯一的方法是重新索引这篇文档。

索引期间boost

PUT bunny
{
  "mappings": {
    "properties": {
      "company": {
        "type": "text", "analyzer": "ik_smart", "boost":"3"
      },
      "desc": {
        "type": "text", "analyzer": "ik_smart"
      }
    }
  }
}

GET bunny/_search
{
  "query": {
    "multi_match": {
      "query": "喵星",
      "fields": ["company","desc"]
    }
  }
}

查询期间boost

通过字段名称后面添加“^”符号和boost的值,提升指定字段的评分权重。

GET bunny/_search
{
  "query": {
    "multi_match": {
      "query": "喵星",
      "fields": ["company^3","desc"]
    }
  }
}

java API中权重控制

    Map<String,Float> fields = new HashMap(2);
    fields.put("company", 3.0f);
    fields.put("desc", 1.0f);
    queryBuilder.must(QueryBuilders.multiMatchQuery(paramsDto.getKeyword()).fields(fields).analyzer("ik_smart"));
posted @ 2022-04-25 16:34  喵星兔  阅读(49)  评论(0编辑  收藏  举报