Loading

es进阶之best fields和most fields

dis_max

基于dis_max实现best feilds策略进行多字段搜索。

best fields策略,是将某一个field匹配尽可能多的关键词的doc优先返回回来。

1、添加文档数据

POST /forum/article/_bulk
{ "update": { "_id": "1"} }
{ "doc" : {"content" : "i like to write best elasticsearch article"} }
{ "update": { "_id": "2"} }
{ "doc" : {"content" : "i think java is the best programming language"} }
{ "update": { "_id": "3"} }
{ "doc" : {"content" : "i am only an elasticsearch beginner"} }
{ "update": { "_id": "4"} }
{ "doc" : {"content" : "elasticsearch and hadoop are all very good solution, i am a beginner"} }
{ "update": { "_id": "5"} }
{ "doc" : {"content" : "spark is best big data solution based on scala ,an programming language similar to java"} }

2、搜索条件:搜索title或content中包含java或solution的帖子

# 多字段搜索
GET /forum/article/_search
{
    "query": {
        "bool": {
            "should": [
                { "match": { "title": "java solution" }},
                { "match": { "content":  "java solution" }}
            ]
        }
    }
}

3、结果分析

期望doc5的数据优先返回,结果却是doc2的优先返回。

image

计算每个document的relevance score:每个query的分数,乘以matched query数量(匹配到的条件的数量),除以总query数量。

产生上述结果的原因分析:

模拟计算:

  • 计算doc2的分数:

{ "match": { "title": "java solution" }},针对doc2能匹配到,是有一个分数的。

{ "match": { "content": "java solution" }},针对doc2能匹配到,也是有一个分数的。

所以是两个分数加起来,比如说,1.1 + 1.2 = 2.3

matched query数量 = 2

总query数量 = 2

2.3 * 2 / 2 = 2.3

  • 算一下doc5的分数

{ "match": { "title": "java solution" }},针对doc5匹配不到,是没有分数的

{ "match": { "content": "java solution" }},针对doc5能匹配到,是有一个分数的

所以说,只有一个query是有分数的,比如2.3

matched query数量 = 1

总query数量 = 2

2.3 * 1 / 2 = 1.15

doc5的分数 = 1.15 < doc2的分数 = 2.3

4、best fields策略,dis_max

best fields策略,就是搜索结果根据某个field匹配到尽可能多的关键字的数据排在前面,而不是尽可能多的field匹配到少量的关键词排在前面。

dis_max 语法,直接取多个query中,分数最高的那个即可。

{ "match": { "title": "java solution" }},针对doc2,是有一个分数的,1.1
{ "match": { "content": "java solution" }},针对doc2,也是有一个分数的,1.2
取最大分数,1.2

{ "match": { "title": "java solution" }},针对doc5,是没有分数的
{ "match": { "content": "java solution" }},针对doc5,是有一个分数的,2.3(java solution 都匹配到了,分数比较高)
取最大分数,2.3

doc2的分数 = 1.2 小于 doc5的分数2.3,所以doc5就能排在更前面的地方,符合我们的需求。

5、使用dis_max查询

GET /forum/article/_search
{
  "query":{
    "dis_max": {
      "queries": [
        { "match": {"title": "java solution"} },
        { "match": {"content": "java solution"} }
      ]
    }
  }
}

image

posted @ 2022-02-18 17:03  头牌彭鱼宴、  阅读(270)  评论(0编辑  收藏  举报