query_string查询支持全部的Apache Lucene查询语法低频词划分依据模糊查询 Disjunction Max

3.3
基本查询
3.3.1
词条查询

词条查询是未经分析的，要跟索引文档中的词条完全匹配
注意：在输入数据中，title字段含有Crime and Punishment，但我们使用小写开头的crime来搜索；
因为Crime一词在建立索引时已经变成了crime。

{
  "query": {
    "term": {
      "title": "crime"
    }
  }
}

在词条查询汇总可包含加权属性，影响给定词条的重要程度

{
  "query": {
    "term": {
      "value": "crime",
      "boost": 10.0
    }
  }
}

3.3.2
多词条查询

获取所有在tags字段中含有novel或book的文档

{
  "query": {
    "term": {
      "tags": [
        "novel",
        "book"
      ],
      "minium_match": 1
    }
  }
}

3.3.3
match_all查询
得到索引中的所有文档

{
  "query": {
    "term": {
      "match_all": {}
    }
  }
}

包含权值，将赋给所有跟它匹配的文档【(?，有何必要？)】

{
  "query": {
    "term": {
      "match_all": {
        "boost": 2.0
      }
    }
  }
}

3.3.4
常用词查询
为提高常用词的查询相关性和精确性

例如，"crime and punishment"
"and"非常常见，对文档得分的影响非常低；
解决办法：
将查询分为2组，第一组包含重要的词，出现的频率较低；
第二组包含高频率的、不那么重要的词；
先执行第一个查询，Elasticsearch从第一组的所有词中计算分数，这样通常都很重要的低频词总是被列入考虑范围；
然后，Elasticsearch对第二组中的词执行二次查询，但只为与第一个查询中匹配的文档计算得分；
这样只计算了相关文档的得分，实现了更高的性能；

{
  "query": {
    "common": {
      "title": {
        "query": "crime and punishment",
        "cutoff_frequency": 0.001
      }
    }
  }
}

【cutoff_frequency 此参数设置为0.001意味着频率<=0.1%的词将出现在低频词组中】

查询可使用下列参数。
 query：这个参数定义了实际的查询内容。
 cutoff_frequency：这个参数定义一个百分比（0.001表示0.1%）或一个绝对值（当此

属性值>=1时）。这个值用来构建高、低频词组。此参数设置为0.001意味着频率<=0.1%的
词将出现在低频词组中。
 low_freq_operator：这个参数可以设为or或and，默认是or。它用来指定为低频词组
构建查询时用到的布尔运算符。如果希望所有的词都在文档中出现才认为是匹配，应该
把它设置为and。
 high_freq_operator：这个参数可以设为or或and，默认是o。它用来指定为高频词组
构建查询时用到的布尔运算符。如果希望所有的词都在文档中出现才认为是匹配，那么
应该把它设置为and。
 minimum_should_match：不使用low_freq_operator和high_freq_operator参数
的话，可以使用minimum_should_match参数。和其他查询一样，它允许指定匹配的文
档中应该出现的查询词的最小个数。
 boost：这个参数定义了赋给文档得分的加权值。
 analyzer：这个参数定义了分析查询文本时用到的分析器名称。默认值为default
analyzer。
 disable_coord：此参数的值默认为false，它允许启用或禁用分数因子的计算，该计
算基于文档中包含的所有查询词的分数。把它设置为true，得分不那么精确，但查询将
稍快。

【不像词条查询和多词条查询，常用词查询是经过Elasticsearch分析的。】

3.3.5
match查询
match查询把query参数中的值拿出来，加以分析，然后构建相应的查询。使用match查询
时，Elasticsearch将对一个字段选择合适的分析器，所以可以确定，传给match查询的词条将被建
立索引时相同的分析器处理。请记住，match查询（以及将在稍后解释的multi_match查询）不
支持Lucene查询语法。但是，它是完全符合搜索需求的一个查询处理器。

{
  "query": {
    "match": {
      "title": "crime and punishment"
    }
  }
}

{
  "query": {
    "fuzzy": {
      "title": "crme"
    }
  }
}

{
  "query": {
    "wildcard": {
      "title": "cr?me"
    }
  }
}




上面的查询将匹配所有在title字段含有crime、and或punishment词条的文档。

1. 布尔值匹配查询
布尔匹配查询分析提供的文本，然后做出布尔查询。有几个参数允许控制布尔查询匹配行为，
如下所示。
 operator：此参数可以接受or和and，控制用来连接创建的布尔条件的布尔运算符。默
认值是or。如果希望查询中的所有条件都匹配，可以使用and运算符。
 analyzer：这个参数定义了分析查询文本时用到的分析器的名字。默认值为default
analyzer。
 fuzziness：可以通过提供此参数的值来构建模糊查询（fuzzy query）。它为字符串类型
提供从0.0到1.0的值。构造模糊查询时，该参数将用来设置相似性。
 prefix_length：此参数可以控制模糊查询的行为。有关此参数值的更多信息，请参阅
3.3.11节。
 max_expansions：此参数可以控制模糊查询的行为。有关此参数值的更多信息，请参
阅3.3.11节。
 zero_terms_query：该参数允许指定当所有的词条都被分析器移除时（例如，因为停
止词），查询的行为。它可以被设置为none或all，默认值是none。在分析器移除所有查
询词条时，该参数设置为none，将没有文档返回；设置为all，则将返回所有文档。
 cutoff_frequency：该参数允许将查询分解成两组：一组低频词和一组高频词。参阅
3.3.4节，看看这个参数怎么用。
这些参数应该封装在运行查询的字段名称里。所以如果想对title字段运行一个简单的布尔
匹配查询，发送如下查询：

{
"query": {
"match": {
"title": {
"query": "crime and punishment",
"operator": "and"
}
}
}
}

2、match_pharse查询

从分析后的文本中构建短语查询，而不是布尔子句。

slop 定义文本查询中的词条和词条之间可以有多少个未知词条，已被视为跟一个短语匹配。默认0，例如slop=1，“a b”和"a and b"被视为匹配。

analyzer 定义分析器。

{"query":{

"match_pharse":{

"title":{

"query":"crime punishment",

"slop":1

}

}}

3、match_pharse_prefix

同match_pharse，但允许查询文本的最后一个词条只做前缀匹配；

{"query":{

"match_pharse_prefix":{

"title":{

"query":"crime and punishm",

"slop":1,

"max_expansions":20

}

}}

3.3.6

multi_match

不是针对单个字段，而是可以通过fields参数针对多个字段查询。

{"query":{

"multi_match":{

"query":"crime and punishm",

"fields":["title","otitle"]

}

}}

3.3.7

query_string查询

支持Apache Lucene查询语法

{ "query" : { "query_string" : { "query" : "title:crime^10 +title:punishment -otitle:cat +author:(+Fyodor +dostoevsky)", "default_field" : "title" } } }

title字段中包含crime词条的文档，且这些文档有10的加权

title字段包含punishment，而otitle字段不包含cat

像大多数Elasticsearch查询一样，query_string提供下列参数控制查询行为。
 query：此参数指定查询文本。
 default_field：此参数指定默认的查询字段，默认值由index.query.default_
field属性指定，默认为_all。
 default_operator：此参数指定默认的逻辑运算符（or或and），默认值是or。
 allow_leading_wildcard：此参数指定是否允许通配符作为词条的第一个字符，默认
值为true。
 lowercase_expand_terms：此参数指定查询重写是否把词条变成小写，默认值为true，
意味着重写后的词条将小写。
 enable_position_increments：此参数指定查询结果中的位置增量是否打开，默认值
是true。

 fuzzy_max_expansions：使用模糊查询时，此参数指定模糊查询可被扩展到的最大词
条数，默认值是50。
 fuzzy_prefix_length：此参数指定生成的模糊查询中的前缀长度，默认值为0。欲了
解更多信息，请参阅3.3.11节。
 fuzzy_min_sim：此参数指定模糊查询的最小相似度，默认值为0.5。欲了解更多信息，
请参阅3.3.11节。
 phrase_slop：此参数指定短语溢出值，默认值为0。欲了解更多信息，请参阅3.3.5节。
 boost：此参数指定使用的加权值，默认值为1.0。
 analyze_wildcard：此参数指定是否应该分析通配符查询生成的词条，默认为false，
意味着词条不会被分析。
 auto_generate_phrase_queries：此参数指定是否自动生成短语查询。其默认值为
false，这意味着不会自动生成。
 minimum_should_match：此参数控制有多少生成的Boolean should子句必须与文档
匹配，才能认为它是匹配的。它可以是百分比，例如50%，这意味着至少有50%的给定词
条必须匹配。它也可以是整数值，如2，这意味着至少2个词条必须匹配。
 lenient：此参数的取值true或false。如果设置为true，格式方面的失败将被忽略。
DisMax是Disjunction Max的缩写。Disjunction指搜索执行可以跨多个字段，每个字段可以给
予不同的权重。Max意味着，对于给定词条，只有最高分会包括在最后的文档评分中，而不是所
有包含该词条的所有字段分数之和（简单的布尔查询才会这样）。
注意，Elasticsearch可以重写query_string查询，正因为如此，Elasticsearch使我们能够传
递额外的参数来控制重写方法。有关此过程的详细信息，请参阅3.2节。

DisMax是Disjunction Max的缩写。Disjunction指搜索执行可以跨多个字段，每个字段可以给予不同的权重。Max意味着，对于给定词条，只有最高分会包括在最后的文档评分中，而不是所有包含该词条的所有字段分数之和（简单的布尔查询才会这样）。

针对多字段的query_string查询

{ "query" : { "query_string" : { "query" : "crime punishment", "fields" : [ "title", "otitle" ], "use_dis_max" : true } } }

3.3.8

simple_query_string查询使用Lucene的最新查询解析器之一：SimpleQueryParser。类似字符串查询，它接受Lucene查询语法；然而不同的是，simple_query_string查询在解析错误时不会抛出异常。它丢弃查询无效的部分，执行其余部分，示例如下：

{ "query" : { "simple_query_string" : { "query" : "title:crime^10 +title:punishment -otitle:cat +author:(+Fyodor +dostoevsky)", "default_operator" : "and" } } }

3.3.9

标识符查询

仅用提供的标识符来过滤返回的文档

针对内部的_uid字段运行，不需要启用_id字段

{ "query" : { "ids" : { "values" : [ "10", "11", "12", "13" ] } } }

限定文档为book类型

{ "query" : { "ids" : { "type" : "book", "values" : [ "10", "11", "12", "13" ] } } }

3.3.10

前缀查询

特定的字段以给定的前缀开始

{"query":{"prefix":{"title":"cri"}}}

加入加权属性

{"query":{"prefix":{"title":{"value":"cri","boost":3.0}}}}

3.3.11

fuzzy_like_this查询

fuzzy_like_this查询类似于more_like_this查询。它查找所有与提供的文本类似的文档，但是它有点不同于more_like_this查询。它利用模糊字符串并选择生成的最佳差分词条。如果针对title和otitle字段的fuzzy_like_this查询来查找所有类似于crime punishment 的文档，可以运行以下查询：

{ "query" : { "fuzzy_like_this" : { "fields" : ["title", "otitle"], "like_text" : "crime punishment" } } }

fuzzy_like_this查询支持以下查询参数。
 fields：此参数定义应该执行查询的字段数组，默认值是_all字段。
 like_text：这是一个必需参数，包含用来跟文档比较的文本。
 ignore_tf：此参数指定在相似度计算期间，是否应忽略词频，默认值为false，意味
着将使用词频。
 max_query_terms：此参数指定生成的查询中能包括的最大查询词条数，默认值为25。
 min_similarity：此参数指定差分词条（differencing terms）应该有的最小相似性，默
认值为0.5。
 prefix_length：此参数指定差分词条的公共前缀长度，默认值为0。
 boost：此参数指定使用的加权值，默认值为1.0。
 analyzer：这个参数定义了分析所提供文本时用到的分析器名称。

3.3.12

fuzzy_like_this_field查询

fuzzy_like_this_field查询和fuzzy_like_this查询类似，但它只能对应单个字段。正因为如此，它不支持多字段属性。作为替代，应该把查询参数封装到字段名称中。查询title 字段的一个示例查询类似于下面这样：

{ "query" : { "fuzzy_like_this_field" : { "title" : { "like_text" : "crime and punishment" } } } }

3.3.13

fuzzy查询

{ "query" : { "fuzzy" : { "title" : "crme" } } }

查询响应如下所示：

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0,
    "hits": {
      "total": 1,
      "max_score": 0.15342641,
      "hits": [
        {
          "_index": "library",
          "_type": "book",
          "_id": "4",
          "_score": 0.15342641,
          "_source": {
            "title": "Crime and Punishment",
            "otitle": "Преступлéние и наказáние",
            "author": "Fyodor Dostoevsky",
            "year": 1886,
            "characters": [
              "Raskolnikov",
              "Sofia Semyonovna Marmeladova"
            ],
            "tags": [],
            "copies": 0,
            "available": true
          }
        }
      ]
    }
  }
}

即使犯了一个拼写错误，Elasticsearch仍然设法找到我们感兴趣的文档。
可以使用下面的参数来控制fuzzy查询的行为。
 value：此参数指定了实际的查询。
 boost：此参数指定了查询的加权值，默认为1.0。
 min_similarity：此参数指定了一个词条被算作匹配所必须拥有的最小相似度。对字
符串字段来说，这个值应该在0到1之间，包含0和1。对于数值型字段，这个值可以大于1，
比如查询值是20，min_similarity设为3，则可以得到17~23的值。对于日期字段，可
以把min_similarity参数值设为1d、2d、1m等，分别表示1天、2天、1个月。
 prefix_length：此参数指定差分词条的公共前缀长度，默认值为0。
 max_expansions：此参数指定查询可被扩展到的最大词条数，默认值是无限制。

参数应该封装在查询针对的字段名称里。所以如果想修改前面的查询，并添加额外的参数，
查询将如下所示：

{ "query" : { "fuzzy" : { "title" : { "value" : "crme", "min_similarity" : 0.2 } } } }

3.3.14

通配符查询

{ "query" : { "wildcard" : { "title" : "cr?me" } } }

加权

{ "query" : { "wildcard" : { "title" : { "value" : "cr?me", "boost" : 20.0 } } } }

3.3.15 more_like_this 查询

more_like_this查询让我们能够得到与提供的文本类似的文档。Elasticsearch支持几个参数
来定义more_like_this查询如何工作，如下所示。
 fields：此参数定义应该执行查询的字段数组，默认值是_all字段。
 like_text：这是一个必需的参数，包含用来跟文档比较的文本。
 percent_terms_to_match：此参数定义了文档需要有多少百分比的词条与查询匹配才
能认为是类似的，默认值为0.3，意思是30%。
 min_term_freq：此参数定义了文档中词条的最低词频，低于此频率的词条将被忽略，
默认值为2。
 max_query_terms：此参数指定生成的查询中能包括的最大查询词条数，默认值为25。
值越大，精度越大，但性能也越低。
 stop_words：此参数定义了一个单词的数组，当比较文档和查询时，这些单词将被忽略，
默认值为空数组。
 min_doc_freq：此参数定义了包含某词条的文档的最小数目，低于此数目时，该词条将
被忽略，默认值为5，意味着一个词条至少应该出现在5个文档中，才不会被忽略。
 max_doc_freq：此参数定义了包含某词条的文档的最大数目，高于此数目时，该词条将
被忽略，默认值为无限制。
 min_word_len：此参数定义了单词的最小长度，低于此长度的单词将被忽略，默认值为0。
 max_word_len：此参数定义了单词的最大长度，高于此长度的单词将被忽略，默认值为
无限制。
 boost_terms：此参数定义了用于每个词条的加权值，默认值为1。
 boost：此参数定义了用于查询的加权值，默认值为1。
 analyzer：此参数指定了针对我们提供的文本的分析器名称。

{ "query" : { "more_like_this" : { "fields" : [ "title", "otitle" ], "like_text" : "crime and punishment", "min_term_freq" : 1, "min_doc_freq" : 1 } } }

3.3.16

more_like_this_field查询

{ "query" : { "more_like_this_field" : { "title" : { "like_text" : "crime and punishment", "min_term_freq" : 1, "min_doc_freq" : 1 } } } }

more_like_this查询中的所有其他参数都可以同样的方式作用于more_like_this_ filed查询。

3.3.17

范围查询

范围查询只能针对单个字段，查询参数应封装在字段名称中。

{ "query" : { "range" : { "year" : { "gte" : 1700, "lte" : 1900 } } } }

3.3.18

最大分查询

{
  "query": {
    "dismax": {
      "tie_breaker": 0.99,
      "boost": 10.0,
      "queries": [
        {
          "match": {
            "title": "crime"
          }
        },
        {
          "match": {
            "author": "fyodor"
          }
        }
      ]
    }
  }
}


文档最后得分计算

最大分查询非常有用，因为它会生成一个由所有子查询返回的文档组成的并集并将它返回。
这个查询好的一面是，我们可以控制较低得分的子查询对文档最后得分的影响。
文档的最后得分是这样计算的：最高分数的子查询的得分之和，加上其余子查询的得分之和
乘以tie参数的值。所以，可以通过tie_breaker参数来控制较低得分的查询对最后得分的影响。
把tie_breaker设为1.0，得到确切的总和；把tie_breaker设为0.1，结果，除最高得分的查
询外，只有所有查询总得分的10%被加到最后得分里。
可以看到，我们在查询中包含了tie_breaker和boost参数。此外，在queries参数中指定
了一组查询，这些查询将执行并产生结果文档的并集。

3.3.19

正则表达式查询

{ "query" : { "regexp" : { "title" : { "value" : "cr.m[ae]", "boost" : 10.0 } } } }

3.4

复合查询

复合查询就是支持可以把多个查询连接起来，或者改变其他查询的行为。

3.4.1

布尔查询

should：被它封装的布尔查询可能被匹配，也可能不被匹配。被匹配的should节点数目由minimum_should_match参数控制。
must：被它封装的布尔查询必须被匹配，文档才会返回。
must_not：被它封装的布尔查询必须不被匹配，文档才会返回。

boost：此参数指定了查询使用的加权值，默认为1.0。加权值越高，匹配文档的得分越高。
minimum_should_match：此参数的值描述了文档被视为匹配时，应该匹配的should
子句的最少数量。举例来说，它可以是个整数值，比如2，也可以是个百分比，比如75%。
更多有关信息，参见 http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/
uery-dsl-minimum-should-match.html。
disable_coord：此参数的默认值为false，允许启用或禁用分数因子的计算，该计算
是基于文档包含的所有查询词条。如果得分不必太精确，但要查询快点，那么应该将它
设置为true。

{
  "query": {
    "bool": {
      "must": {
        "term": {
          "title": "crime"
        }
      },
      "should": {
        "range": {
          "year": {
            "from": 1900,
            "to": 2000
          }
        }
      },
      "must_not": {
        "term": {
          "otitle": "nothing"
        }
      }
    }
  }
}

3.4.2

加权查询

{
  "query": {
    "boosting": {
      "positive": {
        "term": {
          "title": "crime"
        }
      },
      "negative": {
        "range": {
          "year": {
            "from": 1800,
            "to": 1900
          }
        }
      },
      "negative_boost": 0.5
    }
  }
} 

查询title字段中含有crime词条，希望这样的文档得 分不被改变，同时要year字段在1800~1900内的文档，但这样文档的得分要有一个0.5的加权。


加权查询中有三个节点 需要定义：positive部分，包含所返回文档得分不会被改变的查询；negative部分，返回的文 档得分将被降低；negative_boost部分，包含用来降低negative部分查询得分的加权值。 加权查询的优点是，positive部分和negative部分包含的查询结果都会出现在搜索结果 中，而某些查询的得分将被降低。如果使用布尔查询的must_not节点，将得不到这样的结果。

3.4.3
constant_score查询
如果希望 title字段包含crime词条的所有文档的得分为2.0，可以发出以下查询：
{ "query" : { "constant_score" : { "query" : { "term" : { "title" : "crime" } }, "boost" : 2.0 } } }

constant_score查询封装了另一个查询（或过滤），并为每一个所封装查询（或过滤）返 回的文档返回一个常量得分。它允许我们严格控制与一个查询或过滤匹配的文档得分。

3.4.4
索引查询
假设我们有一个别名：books，它持有 两个索引：library和users，我们希望使用别名；然而，我们希望在那些索引上执行不同的查 询，为此，发送以下查询：

{
  "query": {
    "indices": {
      "indices": [
        "library"
      ],
      "query": {
        "term": {
          "title": "crime"
        }
      },
      "no_match_query": {
        "term": {
          "user": "crime"
        }
      }
    }
  }
}

上述查询中，query属性中的查询将执行在library索引上，no_match_query属性中的查
询将执行在集群中其他所有索引上。
no_match_query属性也可以是个字符串值，而不是一个查询。这个字符串值可以是all或
者none，默认是all。设置为all，索引中不匹配的所有文档都会返回；设置为none，索引中不
匹配的文档将不会返回。

Elasticsearch公开的一些查询，如 custom_score查询、custom_
boost_factor查询和custom_filters_scores查询，已经被function_
score查询取代，5.4.3节将描述。我们决定省略这些查询的描述，因为它们在
Elasticsearch的未来版本中可能会被删除。

posted @ 2018-10-22 16:46 papering 阅读(1209) 评论(0) 收藏举报

刷新页面返回顶部

papering

query_string查询支持全部的Apache Lucene查询语法 低频词划分依据 模糊查询 Disjunction Max

query_string查询支持全部的Apache Lucene查询语法低频词划分依据模糊查询 Disjunction Max