最大熵模型原理小结

　最大熵模型(maximum entropy model， MaxEnt)也是很典型的分类算法了，它和逻辑回归类似，都是属于对数线性分类模型。在损失函数优化的过程中，使用了和支持向量机类似的凸优化技术。而对熵的使用，让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型，对逻辑回归，支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。

1. 熵和条件熵的回顾

　　　　在决策树算法原理(上)一文中，我们已经讲到了熵和条件熵的概念，这里我们对它们做一个简单的回顾。

　　　　熵度量了事物的不确定性，越不确定的事物，它的熵就越大。具体的，随机变量X的熵的表达式如下：

H (X) = - \sum i = 1 n p i l o g p i

　　　　其中n代表X的n种不同的离散取值。而

　　　　熟悉了一个变量X的熵，很容易推广到多个个变量的联合熵，这里给出两个变量X和Y的联合熵表达式：

H (X, Y) = - \sum i = 1 n p (x i, y i) l o g p (x i, y i)

　　　　有了联合熵，又可以得到条件熵的表达式H(Y|X)，条件熵类似于条件概率,它度量了我们的Y在知道X以后剩下的不确定性。表达式如下：

H (Y | X) = - \sum i = 1 n p (x i, y i) l o g p (y i | x i) =

　　　　用下面这个图很容易明白他们的关系。左边的椭圆代表H(X),右边的椭圆代表H(Y),中间重合的部分就是我们的互信息或者信息增益I(X,Y), 左边的椭圆去掉重合部分就是H(X|Y),右边的椭圆去掉重合部分就是H(Y|X)。两个椭圆的并就是H(X,Y)。

2. 最大熵模型的定义

　　　　最大熵模型假设分类模型是一个条件概率分布

　　　　给定一个训练集

　　　　在给定训练集的情况下，我们可以得到总体联合分布

　　　　用特征函数

f (x, y) = {1 0 x 与 y 满 足 某 个 关 系

　　　　可以认为只要出现在训练集中出现的

　　　　特征函数

E P ¯¯¯¯ (f) = \sum x, y P ¯¯¯¯ (x, y) f (x, y)

　　　　特征函数

E P (f) = \sum x, y P ¯¯¯¯ (x) P (y | x) f (x, y)

　　　　如果模型可以从训练集中学习，我们就可以假设这两个期望相等。即：

E P ¯¯¯¯ (f) = E P (f)

　　　　上式就是最大熵模型学习的约束条件，假如我们有M个特征函数

　　　　这样我们就得到了最大熵模型的定义如下：

　　　　假设满足所有约束条件的模型集合为：

E P ¯¯¯¯ (f i) = E P (f i) (i = 1, 2, . . . M)

　　　　定义在条件概率分布

H (P) = - \sum x, y P ¯¯¯¯ (x) P (y | x) l o g P (y | x)

　　　　我们的目标是得到使

3 . 最大熵模型损失函数的优化

　　　　在上一节我们已经得到了最大熵模型的损失函数

m i n  P H (P) = - \sum x, y P ¯¯¯¯ (x) P (y | x) l o g P (y

　　　　约束条件为：

E P ¯¯¯¯ (f i) - E P (f i) = 0 (i = 1, 2, . . . M)

\sum y P (y | x) = 1

　　　　由于它是一个凸函数，同时对应的约束条件为仿射函数，根据凸优化理论，这个优化问题可以用拉格朗日函数将其转化为无约束优化函数，此时损失函数对应的拉格朗日函数

L (P, w) \equiv - H (P) + w 0 (1 - \sum y P (y | x)) + \sum i = 1 M w i (

　　　　其中

　　　　我们的拉格朗日函数，即为凸优化的原始问题：

　　　　其对应的拉格朗日对偶问题为：

　　　　由于原始问题满足凸优化理论中的KKT条件，因此原始问题的解和对偶问题的解是一致的。这样我们的损失函数的优化变成了拉格朗日对偶问题的优化。

　　　　求解对偶问题的第一步就是求

ψ (w) = m i n  P L (P, w) = L (P w, w)

P w = a r g m i n  P L (P, w) = P w (y | x)

　　　　具体的是求

\partial L ( P , w ) \partial P ( y | x ) = \sum x , y P ¯¯¯¯ ( x ) ( l o g P ( y | x ) +

= \sum x, y P ¯¯¯¯ (x) (l o g P (y | x) + 1 - w 0 - \sum i = 1 M w i

　　　　令偏导数为0，可以解出

P (y | x) = e x p (\sum i = 1 M w i f i (x, y) + w 0 - 1) = e x

　　　　由于

P w (y | x) = 1 Z w ( x ) e x p ( w i f i ( x , y ) )

　　　　其中，

Z w (x) = \sum y e x p (w i f i (x, y))

　　　　这样我们就得出了

　　　　对

　　　　IIS也是启发式方法，它假设当前的参数向量是

　　　　IIS使用的方法是找到

　　　　由于IIS一般只用于最大熵模型，适用范围不广泛，这里就不详述算法过程了，感兴趣的朋友可以直接参考IIS的论文The improved iterative scaling algorithm: A gentle introduction。

4. 最大熵模型小结

　　　　最大熵模型在分类方法里算是比较优的模型，但是由于它的约束函数的数目一般来说会随着样本量的增大而增大，导致样本量很大的时候，对偶函数优化求解的迭代过程非常慢，scikit-learn甚至都没有最大熵模型对应的类库。但是理解它仍然很有意义，尤其是它和很多分类方法都有千丝万缕的联系。　

　　　　惯例，我们总结下最大熵模型作为分类方法的优缺点：

　　　　最大熵模型的优点有：

　　　　a) 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。

　　　　b) 可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度

　　　　最大熵模型的缺点有：

　　　　a) 由于约束函数数量和样本数目有关系，导致迭代过程计算量巨大，实际应用比较难。

posted on 2017-04-05 20:25 郑兴鹏阅读(1213) 评论(0) 编辑收藏举报