概率图(二)--条件随机场与概率无向图
有向图与无向图
有向概率图模型 或 贝叶斯网络: 因果关系
无向图模型 或 马尔科夫随机场: 关联关系
有向图模型与无向图模型的对比:
1 共同之处
将复杂的联合分布分解为多个因子的乘积
2 不同之处
有向图模型因子是概率分布、无需全局归一(有向图的联合概率分布是根据因果关系,从前乘到后, 参考最大熵马尔科夫模型:https://blog.csdn.net/asdfsadfasdfsa/article/details/91966876)
无向图模型因子是势函数,需要全局归一(这也是为何MEMM对比CRF会出现标注偏置的原因)
3 优缺点
无向图模型中势函数设计不受概率分布约束,
设计灵活,但全局归一代价高
有向图模型无需全局归一、训练相对高效
有向图
对于有向图模型,这么求联合概率:
举个例子,对于下面的这个有向图的随机变量(注意,这个图我画的还是比较广义的):
应该这样表示他们的联合概率:
应该很好理解吧。
无向图与最大团
团块:图结点的子集,每一个子集的每对节点之间都有连接(跨度一个或者多个连接起来的不算)。团块中的节点集合是全连接的。
最大团块:不可能将图中任何一个其它节点包含到团块中而不破坏团块的性质。
图中有两个节点的团有五个
两个最大团块
将团块记为C,团块中的变量为x_c,联合概率分布分解的因子定义为最大团块中变量的函数。简单点就是可以写成图的最大团块的势函数(potential function)乘积的形式:
这里的C就是无向图中所有的极大团,是非负函数,称为极大团因子或者势函数,Z是归一化常数,称为配分函数(partition function)
此图中包含三个极大团
那么此马尔科夫网络的联合概率分布可以写为:
再说一下配分函数怎么拆开加和形式的, 其实就是每个节点所在团块的势函数乘积的和, 具体表达式如下:
其实想想也是有道理的,对于某个变量, 只需要计算它所在的势函数的乘积即可, 最终把所有的加和起来就是所有变量的联合概率分布了.
条件随机场模型推导
条件随机场根据条件概率建模
由无向图的定义,联合概率分布P(X,Y)可由最大团C上的势函数的乘积计算可得(CRF的无向图中是包含标记序列和观测序列),因此
由概率无向图的联合概率定义可得,其势函数为(势函数是自定义的,可以是任意函数,因此势函数不必是概率函数,最终为了得到合适的概率度量,需要对最大团乘积进行归一化)
最终