es进阶之best fields和most fields
dis_max
基于dis_max实现best feilds策略进行多字段搜索。
best fields策略,是将某一个field匹配尽可能多的关键词的doc优先返回回来。
1、添加文档数据
POST /forum/article/_bulk
{ "update": { "_id": "1"} }
{ "doc" : {"content" : "i like to write best elasticsearch article"} }
{ "update": { "_id": "2"} }
{ "doc" : {"content" : "i think java is the best programming language"} }
{ "update": { "_id": "3"} }
{ "doc" : {"content" : "i am only an elasticsearch beginner"} }
{ "update": { "_id": "4"} }
{ "doc" : {"content" : "elasticsearch and hadoop are all very good solution, i am a beginner"} }
{ "update": { "_id": "5"} }
{ "doc" : {"content" : "spark is best big data solution based on scala ,an programming language similar to java"} }
2、搜索条件:搜索title或content中包含java或solution的帖子
# 多字段搜索
GET /forum/article/_search
{
"query": {
"bool": {
"should": [
{ "match": { "title": "java solution" }},
{ "match": { "content": "java solution" }}
]
}
}
}
3、结果分析
期望doc5的数据优先返回,结果却是doc2的优先返回。
计算每个document的relevance score:每个query的分数,乘以matched query数量(匹配到的条件的数量),除以总query数量。
产生上述结果的原因分析:
模拟计算:
- 计算doc2的分数:
{ "match": { "title": "java solution" }},针对doc2能匹配到,是有一个分数的。
{ "match": { "content": "java solution" }},针对doc2能匹配到,也是有一个分数的。
所以是两个分数加起来,比如说,1.1 + 1.2 = 2.3
matched query数量 = 2
总query数量 = 2
2.3 * 2 / 2 = 2.3
- 算一下doc5的分数
{ "match": { "title": "java solution" }},针对doc5匹配不到,是没有分数的
{ "match": { "content": "java solution" }},针对doc5能匹配到,是有一个分数的
所以说,只有一个query是有分数的,比如2.3
matched query数量 = 1
总query数量 = 2
2.3 * 1 / 2 = 1.15
doc5的分数 = 1.15 < doc2的分数 = 2.3
4、best fields策略,dis_max
best fields策略,就是搜索结果根据某个field匹配到尽可能多的关键字的数据排在前面,而不是尽可能多的field匹配到少量的关键词排在前面。
dis_max 语法,直接取多个query中,分数最高的那个即可。
{ "match": { "title": "java solution" }},针对doc2,是有一个分数的,1.1
{ "match": { "content": "java solution" }},针对doc2,也是有一个分数的,1.2
取最大分数,1.2
{ "match": { "title": "java solution" }},针对doc5,是没有分数的
{ "match": { "content": "java solution" }},针对doc5,是有一个分数的,2.3(java solution 都匹配到了,分数比较高)
取最大分数,2.3
doc2的分数 = 1.2 小于 doc5的分数2.3,所以doc5就能排在更前面的地方,符合我们的需求。
5、使用dis_max查询
GET /forum/article/_search
{
"query":{
"dis_max": {
"queries": [
{ "match": {"title": "java solution"} },
{ "match": {"content": "java solution"} }
]
}
}
}