概率图模型之有向图与无向图
一 原理
对待已知事物和未知事物的原则:(1)承认已知事物(知识);(2)对未知事物不做任何假设,没有任何偏见, 概率平均分布 = 熵最大。即在满足特征函数期望等于样本特征函数期望的条件下,找出使得条件熵最大的分布。
二 数学模型
1 目标函数(条件熵最大)
2 约束(特征函数期望等于样本特征函数期望,即对每一个特征(x,y),模型所建立的条件概率分布要与训练样本表现出来的分布相同,)
(1) 特征:(x,y)
y:这个特征中需要确定的信息
x:这个特征中的上下文信息 (注意:这里的x是一个向量)
注意一个标注可能在一种情况下是需要确定的信息,在另一种情况下是上下文信息 :(2)特征函数:对于一个特征(x0,y0),定义特征函数:
(3)特征函数期望值:
对于一个特征(x0,y0) ,在样本中的期望值是:
特征f在模型中的期望值:
3 最终模型
三 数学模型求解
为求解上述约束最优化问题,构造拉格朗日函数:
最优解为:
四:最大熵的优点:
(1) 最大熵是一个判别模型(它建立的是条件概率);
(2) 没有HMM那样的输出独立性假设,可以灵活的选择上下文特征,而且选择特征时,使用者只需要把精力放在特征的选择上面,对特征的独立性没有要求。
(3) 最大熵可以结合到其他的很多算法中使用,如在MEMM中的体现,还可以用最大熵加上状态转移变成其他模型。
五:要注意的几个地方
(1) 最大熵模型是一个无向图;
(2) 最大熵是一个分类器,它只是计算在给定的上下文信息时,属于某个类别的概率,没有计算类别序列的概率。