基于条件概率分类的算法--最大熵模型

 


关于使用拉格朗日对偶求解最优解问题详解:

最大熵模型:

给定数据集 ,特征函数 fi(x,y),i=1,2…,n,根据经验分布得到满足约束集的模型集合 C :

 

MaxEnt 模型的求解

MaxEnt 模型最后被形式化为带有约束条件的最优化问题,可以通过拉格朗日乘子法将其转为无约束优化的问题,引入拉格朗日乘子:

, 定义朗格朗日函数 L(P,w):

现在问题转化为:  ,拉格朗日函数 L(P,w) 的约束是要满足的 ,如果不满足约束的话,只需令,则可得,因为需要得到极小值,所以约束必须要满足,满足约束后可得:  ,现在问题可以形式化为便于拉格朗日对偶处理的极小极大的问题:

由于 L(P,w)是关于 P 的凸函数,根据拉格朗日对偶可得 L(P,w)的极小极大问题与极大极小问题是等价的:

现在可以先求内部的极小问题得到的解为关于 w 的函数,可以记做 Ψ(w) :

上式的解  可以记做:

由于求解 P的最小值,只需对于 P(y|x) 求导即可,令导数等于 0 即可得到

由于 ,可得:

进而可以得到:

这里 起到了归一化的作用,令  表示 ,便得到了 MaxEnt 模型 :

 

这里代表特征函数, 代表特征函数的权值,  即为 MaxEnt 模型,现在内部的极小化求解得到关于 w的函数,现在求其对偶问题的外部极大化即可,将最优解记做 :

所以现在最大上模型转为求解  的极大化问题,求解最优的  后, 便得到了所要求的MaxEnt 模型,将 带入  ,可得:

以上推倒第二行到第三行用到以下结论:

倒数第二行到最后一行是由于:,最终通过一系列极其复杂的运算,得到了需要极大化的式子:


LR与最大熵的等价性:(对比二者公式即可, 倒数第二个公式既是sigmoid模型形式)

逻辑回归跟最大熵模型没有本质差别。逻辑回归是最大熵相应类别为二类时的特殊情况

二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然; 
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然

 

二者都称为对数线性模型

posted @ 2018-06-27 19:11  車輪の唄  阅读(14)  评论(0编辑  收藏  举报  来源