ElasticSearch - 相关性（_score）

什么是相关性

相关度是指两个事物间相互关联的程度，在检索领域特指检索请求与检索结果之间的相关程度。默认情况下，返回结果是按相关性倒序排列的。但什么是相关性？相关性如何计算？

每个文档都有相关性评分，用一个正浮点数字段 _score 来表示。 _score 的评分越高，相关性越高。

查询语句会为每个文档生成一个 _score 字段。评分的计算方式取决于查询类型不同的查询语句用于不同的目的： fuzzy 查询会计算与关键词的拼写相似程度，terms 查询会计算找到的内容与关键词组成部分匹配的百分比，但是通常 relevance 是用来计算全文本字段的值相对于全文本检索词相似程度的算法。

Elasticsearch 的相似度算法被定义为检索词频率/反向文档频率， TF/IDF ，包括以下内容：

检索词频率

检索词在该字段出现的频率？出现频率越高，相关性也越高。字段中出现过 5 次要比只出现过 1 次的相关性高。

反向文档频率

每个检索词在索引中出现的频率？频率越高，相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。

字段长度准则

字段的长度是多少？长度越长，相关性越低。检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。
相关性并不只是全文本检索的专利。也适用于 yes|no 的子句，匹配的子句越多，相关性评分越高。

如果多条查询子句被合并为一条复合查询语句，比如 bool 查询，则每个查询子句计算得出的评分会被合并到总的相关性评分中。

ES的应用

ES中相关性评分的应用很广泛，最常见的应用就是搜索引擎中，将最相关的链接展示在最前面，其次还有一些应用：

推荐系统中的用户最爱：每个用户的喜好不一致，对喜好字段设置更高权重，由ES打分并推荐最相关商品文档
风控系统中的团伙挖掘：对团伙各相关字段（手机号相同、地址相同等）设置权重，并由ES打分获取最相关的团伙文档
实时日志检索：基于ELK架构，以关键字作为评分依据，搜索最相关日志文档

posted @ 2024-07-21 23:06 李若盛开阅读(302) 评论(0) 收藏举报

刷新页面返回顶部

ElasticSearch - 相关性（_score）

什么是相关性

相关性算法

ES的应用

公告