条件随机场入门(一) 概率无向图模型
引言
条件随机场(conditional random field,以下简称CRF) 是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场(HMM 是状态序列的 Markov Chain)。CRF 可以用于不同的预测问题,在 Machine Learning 领域里 CRF 一般用作处理标注问题。常用的就是线性链(linear-chain) 条件随机场了,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计。线性链条件随机场应用于标注问题是由 Lafferty 等人于2001年提出的。
概率无向图模型
概率无向图模型又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。本节首先叙述概率无向图模型的定义,然后介绍概率无向图模型的因子分解。
模型定义
图是由结点及连接结点的边组成的集合。结点和边分别记作 v 和 e ,结点和边的集合分别记作 V 和 E ,图记作 G=(V,E) ,无向图是指边没有方向的图。概率图模型(PGM) 是由图表示的概率分布。设有联合概率分布 $P(Y)$ ,$Y \in \mathcal{Y}$ 是一组随机变量。由无向图 G 表示概率分布,即在图 G 中,结点 $v \in V$ 表示一个随机变量 $Y_v$, $Y = Y_v|_{v \in V}$;边 $e \in E$ 表示随机变量之间的概率依赖关系。
给定一个联合概率分布 $P(Y)$ 和表示它的无向图 G。首先定义无向图表示的随机变量之间存在的成对马尔可夫性局、部马尔可夫性和全局马尔可夫性。分别介绍一下三个概念:
成对马尔可夫性:设 u 和 v 是无向图G中任意两个没有边连接的结点,结点u和v分别对应随机变量 $Y_u$ 和 $Y_v$。其他所有结点为 O(集合),对应的随机变量组是 $Y_O$。成对马尔可夫性是指给定随机变量组 $Y_O$ 的条件下随机变量 $Y_u$ 和 $Y_v$ 是条件独立的,其实意思就是说没有直连边的任意两个节点是独立的,即
\[P(Y_u,Y_v |Y_O) = P(Y_u|Y_O)P(Y_v|Y_O)\]
局部马尔可夫性:设 v \in V 是无向图 G 中任意一个结点,W 是与 v 有边连接的所有结点,O 是 v,W 以外的其他所有结点。v 表示的随机变量是 $Y_v$ ,W 表示的随机变量组是 Y_w,O 表示的随机变量组是 Y_O。局部马尔可夫性是指在给定随机变量组 Y_W 的条件下随机变量 v 与随机变量组 Y_O 是独立的,即
\[P(Y_v,Y_O |Y_W) = P(Y_v|Y_W)P(Y_O|Y_W)\]
在 $P(Y_O|Y_W) >0$ 时,等价地,
\[p(Y_v |Y_W) = P(Y_v|Y_W,Y_O)\]
下图表示了局部马尔可夫性。
全局马尔可夫性:设结点集合 A,B 是在无向图 G 中被结点集合 C 分开的任意结点集合,如图所示。结点集合 A,B 和 C 所对应的随机变量组分别是 $Y_A,Y_B$ 和 $Y_C$。全局马尔可夫性是指给定随机变量组条件下随机变量组 $Y_A$ 和 $Y_B$ 是条件独立的,即
\[P(Y_A,Y_B|Y_C) = P(Y_A|Y_C)P(Y_B|Y_C)\]
概率无向图模型: 设有联合概率分布 P(Y) ,由无向图 G=(V,E) 表示,在图 G 中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布 P(Y) 满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。
以上是概率无向图模型的定义,实际上,我们更关心的是如何求其联合概率分布。对给定的概率无向图模型,我们希望将整体的联合概率写成若干子联合概率的乘积的形式,也就是将联合概率进行因子分解,这样便于模型的学习与计算。事实上,概率无向图模型的最大特点就是易于因子分解。下面介绍这一结果。
概率无向图模型的因子分解
首先给出无向图中的团与最大团的定义,无向图 G 中任何两个结点均有边连接的结点子集称为团(clique)。若 C 是无向图 G 的一个团,并且不能再加进任何一个 G 的结点使其成为一个更大的团,则称此 C 为最大团(maximal clique)。
下图 (a) 表示由4个结点组成的无向图。图中由2个结点组成的团有5个: {$Y_1,Y_2$},{$Y_2,Y_3$},{$Y_3,Y_4$} 和 {$Y_4,Y_2$},{$Y_1,Y_3$} 。有2个最大团:{$Y_1,Y_2,Y_3$} 和 {$Y_2,Y_3,Y_4$}。而 {$Y_1,Y_2,Y_3,Y_4$} 不是一个团,因为 $Y_1$ 和 $Y_4$ 没有边连接。
将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解,譬如在解高次方程的时候,我们非常希望方程能够分解为多个低次方程的乘积。那么,对于概率分布函数而言,我们也希望能够这样做,即给定概率无向图模型,设无向图为 G , C 为 G 上的最大团, $Y_C$ 表示 C 对应的随机变量。那么概率无向图模型的联合概率分布 $P(Y)$ 可分解为图中所有最大团 C 上的函数 $\Psi_C(Y_C)$ 的乘积形式,分解后的因子图如 (b) 所示,每个黑色的正方形便代表一个函数,图中将无向图拆分为两个最大团上势函数的乘积,具体的拆分公式为:
\[P(Y) = \frac{1}{Z} \prod_C \Psi_C(Y_C)\]
其中,Z 是规范化因子(normalization factor),形式如下:
\[Z = \sum_Y\prod_C \Psi_C(Y_C)\]
规范化因子保证 $P(Y)$ 构成一个概率分布。$\Psi_C(Y_C) \rightarrow \mathbb{R}$ 称为势函数 (potential function)。这里要求势函数 $\Psi_C(Y_C)$ 是严格正的,通常定义为指数函数:
\[\Psi_C(Y_C) = \exp \left \{-E(Y_C) \right \}\]
总结一下,便得到 Hammersley-Clifford定理 ,概率无向图模型的联合概率分布可以表示为如下形式:
\begin{aligned}
P(Y) &= \frac{1}{Z} \prod_C \Psi_C(Y_C) \\
Z &= \sum_Y\prod_C \Psi_C(Y_C)
\end{aligned}
其中,C 是无向图的最大团, $Y_C$ 是 C 的结点对应的随机变量, $\Psi_C(Y_C)$ 是 C 上定义的严格正函数,乘积是在无向图所有的最大团上进行的。
http://blog.csdn.net/zdy0_2004/article/details/44248083
http://dataunion.org/16448.html