机器学习排序算法：RankNet to LambdaRank to LambdaMART

使用机器学习排序算法LambdaMART有一段时间了，但一直没有真正弄清楚算法中的所有细节。

学习过程中细读了两篇不错的博文，推荐给大家：

徐博From RankNet to LambdaRank to LambdaMART: An Overview

但经过一番搜寻之后发现，目前网上并没有一篇透彻讲解该算法的文章，所以希望这篇文章能够达到此目的。

本文主要参考微软研究院2010年发表的文章From RankNet to LambdaRank to LambdaMART: An Overview

1. 概述

RankNet、LambdaRank和LambdaMART是三个关系非常紧密的机器学习排序算法。简而言之，RankNet是最基础，基于神经网络的排序算法；而LambdaRank在RankNet的基础上修改了梯度的计算方式，也即加入了lambda梯度；LambdaMART结合了lambda梯度和MART（另称为GBDT，梯度提升树）。这三种算法在工业界中应用广泛，在BAT等国内大厂和微软谷歌等世界互联网巨头内部都有大量应用，还曾经赢得“Yahoo！Learning To Rank Challenge(Track 1)"的冠军。本人认为如果评选当今工业界中三种最重要的机器学习算法，以LambdaMART为代表的集成学习算法肯定占有一席之地，另外两个分别是支持向量机和深度学习。

2. RankNet

2.1 算法基础定义

RankNet解决如下搜索排序问题：给定query集合，每个query都对应着一个文档集合，如何对每个query返回排序后的文档集合。可以想象这样的场景：某位高考生在得知自己的成绩后，准备报考志愿。听说最近西湖大学办得不错，所以就想到网上搜搜关于西湖大学的资料。他打开一个搜索引擎，输入“西湖大学”四个字，然后点击“搜索”，页面从上到下显示了10条搜索结果，他认为排在上面的肯定比下面的相关，所以就开始从上往下一个个地浏览。所以RankNet的目标就是对所有query，都能将其返回的文档按照相关性进行排序。

RankNet网络将输入query的特征向量

P i j \equiv P (U i ⊳ U j) \equiv 1 1 + e - σ ( s i - s j )

这个概率实际上就是深度学习中经常使用的sigmoid函数，参数

S i j = ⎧⎩⎨ 1 0 - 1 文 档 i 比 文 档 j

定义

C = - P ¯¯¯¯ i j l o g P i j - (1 - P ¯¯¯¯ i j) l o g (1 - P i j

如果不太熟悉什么是交叉熵，可以参考宗成庆老师的《统计自然语言处理》2.2节“信息论基本概念”，里面将熵、联合熵、互信息、相对熵、交叉熵和困惑度等概念都讲得相当清楚。

结合以上多个公式，可以改写损失函数

C = 1 2 ( 1 - S i j ) σ ( s i - s j ) + l o g ( 1 + e - σ ( s i - s j

对于

C = l o g (1 + e - σ (s i - s j))

然而对于

C = l o g (1 + e - σ (s j - s i))

可以看出损失函数

分析损失函数

lim s i - s j \to \infty C = lim s i - s j \to \infty l o g (1 + e - σ (s i -

如果

lim s i - s j \to \infty C = lim s i - s j \to \infty l o g (1 + e - σ (s i -

利用神经网络对模型进行训练，目前最有效的方法就是反向传播算法。反向传播算法中最核心部分就是损失函数对模型参数的求导，然后可以使用下面的公式对模型参数进行迭代更新：

w k \leftarrow w k - η \partial C \partial w k = w k - η ( \partial C \partial

损失函数

\partial C \partial s i = σ ( 1 2 ( 1 - S i j ) - 1 1 + e σ ( s

δ C = \sum k \partial C \partial w k δ w k = \sum k \partial C \partial w k

2.2 RankNet分解形式：加速RankNet训练过程

2.1节中定义的RankNet，对于每一个文档对

对于给定的文档对

\partial C \partial w k = \partial C \partial s i \partial s i \partial w k +

其中：

λ i j = \partial C ( s i - s j ) \partial s i = σ ( 1 2 ( 1 - S i j

定义

δ w k = - η \sum (i, j) \in I (λ i j \partial s i \partial w k - λ

其中：

λ i = \sum j : {i, j} \in I λ i j - \sum j : {j, i} \in I λ i j

通俗地说，

δ w k = - η \sum {i, j} \in I (λ i j \partial s i \partial w k - λ

于是可以得到

2.3 模型训练过程示例

假设某个搜索系统中，文档用2维的特征向量表示。给定一个query下的三个文档向量分别为

初始化

根据以上初始值可以计算出

计算

更新网络权重:

使用更新后的权重重新计算三个文档的分数，分别为

3. 信息检索评分

信息检索研究者经常使用的排序质量评分指标有以下四种：

MRR(Mean Reciprocal Rank)，平均倒数排名

MAP(Mean Average Precision)，平均正确率均值

NDCG(Normalized Discounted Cumulative Gain)，归一化折损累积增益

ERR(Expected Reciprocal Rank)，预期倒数排名

其中，MRR和MAP只能对二级的相关性（排序等级：相关和不相关）进行评分，而NDCG和ERR则可以对多级的相关性（排序等级>2）进行评分。NDCG和ERR的另一个优点是更关注排名靠前的文档，在计算分数时会给予排名靠前的文档更高的权重。但是这两种评分方式的缺点是函数不连续，不能进行求导，所以也就不能简单地将这两种评分方式加入到模型的损失函数中去。

3.1 MRR

对于一个查询

M R R (Q) = 1 | Q | \sum i = 1 | Q | 1 r a n k i

举个简单例子：

查询语句	查询结果	正确结果	排序位置	排序倒数
机器学习	快速排序，深度学习，并行计算	深度学习	2	1/2
苹果手机	小米手机，华为手机，iphone 7	iphone 7	3	1/3
小米移动电源	小米移动电源，华为充电器，苹果充电插头	小米移动电源	1	1/1

所以

3.2 MAP

假定信息需求

M A P (Q) = 1 | Q | \sum j = 1 | Q | 1 m j \sum k = 1

实际上有两种计算

如果对定义的公式不太理解，可以结合下面的例子进行理解。

查询1：机器学习		查询2：苹果手机
排序位置	是否相关	排序位置	是否相关
1	是	1	否
2	是	2	是
3	否	3	是
4	否	4	否
5	是	5	否
6	否	6	是
7	否	7	是

针对上面检索的结果，可计算出

3.3 NDCG

NDCG是基于前

N D C G (Q, k) = 1 | Q | \sum j = 1 | Q | Z j , k \sum

其中

D C G k = \sum m = 1 k 2 R ( j , m ) - 1 l o g ( 1 + m )

修改上面简单的例子进行辅助理解：

查询1：机器学习		查询2：苹果手机
排序位置	相关程度	排序位置	相关程度
1	3	1	2
2	2	2	2
3	3	3	3
4	0	4	1
5	1	5	2
6	2	6	3
7	2	7	1

对于查询1：机器学习:

D C G 7 = \sum m = 1 7 2 R ( j , m ) - 1 l o g ( 1 + m ) = 21.421516

查询1返回结果的最佳相关程度排序为：3,3,2,2,2,1,0，所以，

对于查询2：苹果手机:

D C G 7 = \sum m = 1 7 2 R ( j , m ) - 1 l o g ( 1 + m ) = 18.482089

查询2返回结果的最佳相关程度排序为：3,3,2,2,2,1,1，所以，

最后可得：

3.4 ERR

R (g) = 2 g - 1 2 g m a x , g \in { 0 , 1 , . . . , g m a x }

于是定义：

E R R = \sum r = 1 n 1 r \prod i = 1 r - 1 ( 1 - R i ) R r

展开公式如下：

E R R = R 1 + 1 2 ( 1 - R 1 ) R 2 + 1 3 ( 1 - R 1 ) ( 1 - R 2 ) R 3 + . .

举例来说(

查询：机器学习
排序位置	相关程度
1	3
2	2
3	3
4	1

4. LambdaRank

4.1 为什么需要LambdaRank

先看一张论文原文中的图，如下所示。这是一组用二元等级相关性进行排序的链接地址，其中浅灰色代表链接与query不相关，深蓝色代表链接与query相关。对于左边来说，总的pairwise误差为13，而右边总的pairwise误差为11。但是大多数情况下我们更期望能得到左边的结果。这说明最基本的pairwise误差计算方式并不能很好地模拟用户对搜索引擎的期望。右边黑色箭头代表RankNet计算出的梯度大小，红色箭头是期望的梯度大小。NDCG和ERR在计算误差时，排名越靠前权重越大，可以很好地解决RankNet计算误差时的缺点。但是NDCG和ERR均是不可导的函数，如何加入到RankNet的梯度计算中去？

4.2 LambdaRank定义

RankNet中的

λ i j = \partial C ( s i - s j ) \partial s i = - σ 1 + e σ ( s

其中

另外还可以将

5. LambdaMART

5.1 MART

LambdaMART是MART和LambdaRank的结合，所以要学习LambdaMART首先得了解什么是MART。MART是Multiple Additive Regression Tree的简称，很多时候又称为GBDT（Gradient Boosting Decision Tree）。MART是一种集成学习算法，不同于经典的集成学习算法Adaboost利用前一轮学习器的误差来更新下一轮学习的样本权重，MART每次都拟合上一轮分类器产生的残差。举个例子便于理解，比如一个人的年龄是50岁，第一棵树拟合的结果是35岁，第一轮的残差为15岁；然后第二棵数拟合的结果是10岁，两棵树相加总的拟合结果是45岁，第二轮的残差为5岁；第三棵数拟合的结果为2岁，三棵树相加拟合的结果是47岁，第三轮的残差是3岁......只要如此不断地进行下去，拟合结果就可以达到50岁，拟合残差的过程就是训练数据的过程。

对于一个给定的数据集

S j = \sum i \in L (y i - μ L) 2 + \sum i \in R (y i - μ R) 2

其中

上面公式使用最小二乘法计算拟合误差，所以通过上面方法得到的模型又称为最小二乘回归树。其实不管误差的计算方式如何，我们都可以拟合出相应的回归树，唯一的区别是梯度的计算不同而已。

MART使用线性组合的方式将拟合的树结合起来，作为最后的输出：

F n (x) = \sum i = 1 N α i f i (x)

在这里我们需要弄清楚为什么拟合残差就能不断减少拟合误差。假设拟合误差

δ C \approx \partial C ( F n ) \partial F n δ F n

如果取

设标签向量

C = 1 2 ( F n - y ) 2

那么

5.2 逻辑回归+MART进行二分类

了解了MART之后，下面举一个MART实际应用的例子：使用MART和逻辑回归进行二分类。用于分类的样本

P + \equiv P (y = 1 | x)

P - \equiv P (y = - 1 | x)

用交叉熵表示损失函数：

L (y, F) = - y l o g (P +) - (1 - y) l o g (P -)

逻辑回归使用对数机率（属于正例概率/属于负例概率）进行建模，

F n (x) = 1 2 l o g ( P + P - )

P + = 1 1 + e - 2 σ F n ( x )

P - = 1 - P + = 1 1 + e 2 σ F n ( x )

将

L (y, F n) = l o g (1 + e - 2 y σ F n)

γ j m = a r g min γ \sum x i \in R j m log (1 + e - 2 σ y i (

上式可以使用Newton-Raphson方法按照下面的公式进行迭代求解：

γ n + 1 = γ n - g ' ( γ n ) g '' ( γ n )

5.3 LambdaMART基本定义

LambdaMART基于MART，优化

λ i j = \partial C ( s i - s j ) \partial s i = - σ | Δ Z

λ i = \sum j : {i, j} \in I λ i j - \sum j : {j, i} \in I λ i j

为了简化表示：

\sum {i, j} ⇌ I λ i j = \sum j : {i, j} \in I λ i j - \sum j : {j,

于是我们可以更新损失函数：

\partial C \partial s i = \sum j : { i , j } \in I - σ | Δ Z i j

其中，我们定义：

ρ i j = 1 1 + e σ ( s i - s j ) = - λ i j σ | Δ

然后可以得到：

\partial 2 C \partial s 2 i = \sum { i , j } ⇌ I σ 2 | Δ Z i j

所以我们可以用下面的公式计算第

γ k m = \sum x i \in R k m \partial C \partial s i \sum x i \in

所以总结LambdaMART算法如下：

6. 参考文献

1. Christopher J.C. Burges. From RankNet to LambdaRank to LambdaMART: An Overview. Microsoft Research Technical Report MSR-TR-010-82.

2. Chrisopher D.Manning, Prabhakar Raghavan, Hinrich Schutze著, 王斌译. Introduction to Information Retrieval, 8.4 有序检索结果的评价方法, 2017年10月北京第11次印刷.

3. Olivier Chapelle, Ya Zhang, Pierre Grinspan. Expected Recipocal Rank for Graded Relevance. CIKM 2009.

posted on 2019-08-30 08:24 知识天地阅读(712) 评论(0) 编辑收藏举报