星云外

概率图模型之有向图与无向图

预备知识:条件熵定义: clip_image002

一 原理

对待已知事物和未知事物的原则:(1)承认已知事物(知识);(2)对未知事物不做任何假设,没有任何偏见, 概率平均分布 = 熵最大。即在满足特征函数期望等于样本特征函数期望的条件下,找出使得条件熵最大的分布。

二 数学模型

1 目标函数(条件熵最大)

clip_image004 ,P={p|p是X上满足条件的概率分布}

2 约束(特征函数期望等于样本特征函数期望,即对每一个特征(x,y),模型所建立的条件概率分布要与训练样本表现出来的分布相同,clip_image006

(1) 特征:(x,y)

y:这个特征中需要确定的信息

x:这个特征中的上下文信息 (注意:这里的x是一个向量)

注意一个标注可能在一种情况下是需要确定的信息,在另一种情况下是上下文信息 :(2)特征函数:对于一个特征(x0,y0),定义特征函数:

clip_image008

(3)特征函数期望值:

对于一个特征(x0,y0) ,在样本中的期望值是:

clip_image010

clip_image012其中,clip_image014是(x,y)在样本中出现的概率, clip_image016

clip_image018

特征f在模型中的期望值:

clip_image020

3 最终模型

目标函数:clip_image022

约束条件:clip_image024

三 数学模型求解

为求解上述约束最优化问题,构造拉格朗日函数:

clip_image026

最优解为:

clip_image028

等价为:clip_image030clip_image032,其中clip_image034

即:clip_image036,其中clip_image038

四:最大熵的优点:

(1) 最大熵是一个判别模型(它建立的是条件概率);

(2) 没有HMM那样的输出独立性假设,可以灵活的选择上下文特征,而且选择特征时,使用者只需要把精力放在特征的选择上面,对特征的独立性没有要求。

(3) 最大熵可以结合到其他的很多算法中使用,如在MEMM中的体现,还可以用最大熵加上状态转移变成其他模型。

五:要注意的几个地方

(1) 最大熵模型是一个无向图;

(2) 最大熵是一个分类器,它只是计算在给定的上下文信息时,属于某个类别的概率,没有计算类别序列的概率。

posted on 2010-04-16 20:52  星云外  阅读(2667)  评论(0编辑  收藏  举报