Elasticsearch 搜索的评分机制 - 想总结却停留不前？

从我们在elasticsearch复合框输入搜索语句到结果显示，展现给我们的是一个按score得分从高到底排好序的结果集。下面就来学习下elasticsearch怎样计算得分。

Lucene（或 Elasticsearch）使用布尔模型（Boolean model）查找匹配文档，并用一个名为实用评分函数（practical scoring function）的公式来计算相关度。这个公式借鉴了词频/逆向文档频率（term frequency/inverse document frequency）和向量空间模型（vector space model），同时也加入了一些现代的新特性，如协调因子（coordination factor），字段长度归一化（field length normalization），以及词或查询语句权重提升。

Lucene计算评分的公式：

这个评分公式有6个部分组成：

coord(q,d) 评分因子，基于文档中出现查询项的个数。越多的查询项在一个文档中，说明文档的匹配程度越高。

queryNorm(q)查询的标准查询

tf(t in d) 指项t在文档d中出现的次数frequency。具体值为次数的开根号。

idf(t) 反转文档频率, 出现项t的文档数docFreq

t.getBoost 查询时候查询项加权

norm(t,d) 长度相关的加权因子

1、tf(t in d) 词频

tf(t in d) = √frequency

即出现的个数进行开方，这个没什么可以讲述的，实际打分也是如此。

2、idf(t)反转文档频率

这个的意思是出现的逆词频数，即召回的文档在总文档中出现过多少次，这个的计算在ES中与lucene中有些区别，只有在分片数为1的情况下，与lucene的计算是一致的，如果不唯一，那么每一个分片都有一个不同的idf的值，它的计算方式如下所示：

idf(t) = 1 + log ( numDocs / (docFreq + 1))

其中，log是以e为底的，不是以10或者以2为底，这点需要注意，numDocs是指所有的文档个数，如果有分片的话，就是指的是在当前分片下总的文档个数，docFreq是指召回文档的个数，如果有分片对应的也是在当前分片下召回的个数，这点是计算的时候与lucene不同之处，如果想验证是否正确，只需将分片shard的个数设置为1即可

3、queryNorm(q)查询的标准查询

queryNorm(q) = 1 / √sumOfSquaredWeights

上述公式是ES官网的公式，这是在默认query boost为1，并且在默认term boost为1 的情况下的打分，其中

sumOfSquaredWeights =idf(t1)*idf(t1)+idf(t2)*idf(t2)+...+idf(tn)*idf(tn)

其中n为在query里面切成term的个数，但是上面全部是在默认为1的情况下的计算，实际上的计算公式如下所示：