Pairwise ranking methods: RankNet与LambdaRank

转自：http://blog.csdn.net/u014374284/article/details/49385065, 感谢分享!

LamdaMart 介绍见博客http://blog.csdn.net/huagong_adu/article/details/40710305，感谢分享！

在使用搜索引擎的过程中，对于某一Query(或关键字)，搜索引擎会找出许多与Query相关的URL，然后根据每个URL的特征向量对该URL与主题的相关性进行打分并决定最终URL的排序，其流程如下：

这里写图片描述

排序的好坏完全取决于模型的输出，而模型又由其参数决定，因而问题转换成了如何利用带label的训练数据去获得最优的模型参数w。Ranknet提供了一种基于Pairwise的训练方法，它最早由微软研究院的Chris Burges等人在2005年ICML上的一篇论文Learning to Rank Using Gradient Descent中提出，并被应用在微软的搜索引擎Bing当中。

代价函数

对于一个排序，RankNet从各个URL的相对关系来评价排序结果的好坏，排序的效果越好，那么有错误相对关系的pair就越少。所谓错误的相对关系即如果根据模型输出

C i j = - P ¯¯¯ i j l o g P i j - (1 - P ¯¯¯ i j) l o g (1 - P

化简

C i j = - 1 2 ( 1 + S i j ) l o g 1 1 + e

下图展示了

图中t表示

当两个相关性不同的文档算出来的模型分数相同时，损失函数的值大于0，仍会对这对pair做惩罚，使他们的排序位置区分开
损失函数是一个类线性函数，可以有效减少异常样本数据对模型的影响，因此具有鲁棒性

总代价

C = \sum (i, j) \in I C i j

I表示所有URL pari的集合，且每个pair仅包含一次。

梯度下降迭代

我们获得了一个可微的代价函数，下面我们就可以用梯度下降法来迭代更新模型参数

w k \to w k - η \partial C \partial w k

Δ C = \sum k \partial C \partial w k Δ w k = \sum k \partial C \partial w k ( η \partial C

这表明沿负梯度方向更新参数确实可以降低总代价。我们对

\partial C \partial w k = \sum ( i , j ) \in I ( \partial C i j \partial s i \partial

其中

\partial C i j \partial s i = σ ( 1 2 ( 1 - S i j ) - 1 1 + e

我们令

\partial C \partial w k = \sum ( i , j ) \in I σ ( 1 2 ( 1 - S

下面我们来看看这个

λ i = \sum j : (i, j) \in I λ i j - \sum j : (j, i) \in I λ i j

这个写法是Burges的paper上的写法，我对此好久都没有理清，下面我们用一个实际的例子来看：有三个URL，其真实相关性满足

\partial C \partial w k = ( λ 12 \partial s 1 \partial w k - λ 12 \partial s

显然

λ i = \sum j : (i, j) \in I λ i j - \sum k : (k, i) \in I λ k i

LambdaRank

上面我们介绍了以错误pair最少为优化目标的RankNet算法，然而许多时候仅以错误pair数来评价排序的好坏是不够的，像NDCG或者ERR等评价指标就只关注top k个结果的排序，当我们采用RankNet算法时，往往无法以这些指标为优化目标进行迭代，以下图为例：

这里写图片描述

图中每个线条表示一个URL，蓝色表示与Query相关的URL，灰色表示不相关的URL。下面我们用Error pair和NDCG分别来评估左右两个排序的好坏：

Error pair指标

对于排序1，排序错误的pair共13对，故

对于排序2，排序错误的pair共11对，故

所以，从Error pair角度考虑，排序2要优于排序1
NDCG指标

排序1与排序2具有相同的
$m a x D C G @ 16 = 2 1 - 1 l o g ( 1 + 1 ) + 2 1 - 1 l o g$

对排序1，有
$D C G @ 16 = 2 1 - 1 l o g ( 1 + 1 ) + 2 1 - 1 l o g ( 1 +$
$N D C G @ 16 = D C G @ 16 m a x D C G @ 16 = 1.25 1.63 = 0.767$

对排序2，有
$D C G @ 16 = 2 1 - 1 l o g ( 1 + 4 ) + 2 1 - 1 l o g ( 1 +$ $N D C G @ 16 = D C G @ 16 m a x D C G @ 16 = 0.72 1.63 = 0.442$

所以，从NDCG指标来看，排序1要优于排序2。

那么我们是否能以RankNet的思路来优化像NDCG、ERR等不连续、不平滑的指标呢？答案是肯定，我们只需稍微改动一下RankNet的

λ i j = - σ 1 + e σ ( s i - s j ) | Δ Z i j |

排序2中以箭头展示了RankNet和LambdaRank的下一轮迭代的调序方向和强度(箭头长度)，黑色箭头表示RankNet算法下

以上就是我对RankNet和LambdaRank的理解，如有不对之处还请指正。

参考：
From RankNet to LambdaRank to LambdaMART: An Overview
http://blog.csdn.net/huagong_adu/article/details/40710305
http://www.cnblogs.com/kemaswill/p/kemaswill.html

http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html

posted @ 2017-12-20 12:09 白婷阅读(889) 评论(0) 收藏举报

刷新页面返回顶部

白婷的博客

知乎: https://www.zhihu.com/people/bai-bai-87-80-88

Pairwise ranking methods: RankNet与LambdaRank

相关性概率

代价函数

梯度下降迭代

LambdaRank

公告