条件随机场
概述
条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。
条件随机场可以用于不同的预测问题,本章主要讲述线性链(linear chain)条件随机场在标注问题的应用,这时问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计。
概率无向图模型
概率无向图模型(probabilistic undireoted graphical model),又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。
1、模型定义
概率图模型(probabilistic graphical model)是由图表示的概率分布。设有联合概率分布P(Y),Y是一组随机变量。由无向图G=(V,E)表示概率分布P(Y),即在图G中,每个结点 v 表示一个随机变量Yv;每条边e表示随机变量之间的概率依赖关系。
给定一个联合概率分布P(Y)和表示它的无向图G。首先定义无向图表示的随机变量之间存在的成对马尔可夫性(pairwise Markov property)、局部马尔可夫性(local Markov properly)和全局马尔可夫性(global Markov property)。
(1)成对马尔可夫性
设u和v是无向图G中任意两个没有边连接的结点,结点u和v分别对应随机变量Yu和Yv,其他所有结点为O,对应的随机变量组是YO。成对马尔可夫性是指给定随机变量组YO的条件下随机变量Yu和Yv是条件独立的,即
(2)局部马尔可夫性
设v是无向图G中任意一个结点,W是与v有边连接的所有结点,O是v, W以外的其他所有结点。分别表示随机变量Yv,以及随机变量组YW和YO。局部马尔可夫性是指在给定随机变量组YW的条件下随机变量Yv与随机变量组YO是独立的,即
(3)全局马尔可夫性
设结点集合A, B是在无向图G中被结点集合C分开的任意结点集合,如图11.2所示。结点集合A, B和C所对应的随机变量组分别是YA,YB和YC。全局马尔可夫性是指给定随机变量组YC条件下随机变量组YA,YB是条件独立的,即
(4)模型定义如下:
设有联合概率分布P(Y)由无向图G=(V,E)表示,在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型(probability undirected graphical model),或马尔可夫随机场C Markovrandom field )。
2、概率无向图模型的因子分解
(1)团与最大团
定义11.2 (团与最大团) 无向图G中任何两个结点均有边连接的结点子集称为团(clique)。若C是无向图G的一个团,井且不能再加进任何一个G的结点使其成为一个更大的团,则称此C为最大团(maximal clique)。
例:图11.3表示由4个结点组成的无向图。图中由2个结点组成的团有5个:{Y1,Y2,Y3,Y4},{Y2,Y3},{Y3,Y4},{Y4,Y2}和{Y1,Y3}。有2个最大团{Y1,Y2,Y3}和{Y2,Y3,Y4}。而{Y1,Y2,Y3,Y4}不是一个团,因为Y1和Y4没有边连接.
其中,Z是规范化因子(normalization factor),规范化因子保证P(Y)构成一个概率分布,函数称为势函数(potenrial function),要求是严格正的,通常定义为指数函数。
,
(3)Hammersley-CIifford定理
定理11.1 (Hammersley-CIifford定理) 概率无向图模型的联合概率分布P(Y)可以表示为如下形式:
C是无向图的最大团,YC是C的结点对应的随机变量,是C上定义的严格正函数,乘积是在无向图所有的最大团上进行的。
条件随机场的定义与形式
1、条件随机场的定义
(1)条件随机场
2、条件随机场参数化形式
4、条件随机场的矩阵形式
引进特殊的起点和终点状态标记y0 =start , yn+1=stop。对观测序列x的每一个位置i,定义一个m阶矩阵(m是标记yi取值的个数)
注意:修改:
条件随机场的概率计算问题
条件随机场的概率计算问题是给定条件随机场P(YIX),输入序列x和输出序列Y,计算条件概率P(Yi=yi | x ),P(Yi-1=yi-1,Yi=yi | x)以及相应的数学期望的问题。
1、前向-后向算法
对每个指标i = 0,1,...,n + 1,定义前向向量
递推公式为
又可以表示为
ai(yi | x)表示在位置i的标记是yi并且到位置i的前部分标记序列的非规范化概率,yi可取的值有m个,所以ai是m维列向量。
定义后向向量
递推公式为
又可以表示为
其表示在位置i的标记是yi并且从i+1到n的后部分标记序列的非规范化概率。
可以得到
2、概率计算
按照前向-后向向量的定义,很容易计算标记序列在位置i是标记yi的条件概率和在位置i-1与i是标记yi-1和yi的条件概率:
3、期望值的计算
对于给定的观测序列x与标记序列Y,可以通过一次前向扫描和一次后向扫描计算所有的概率和特征的期望。
条件随机场的学习算法
条件随机场模型实际上是定义在时序数据上的对数线形模型,其学习方法包括极大似然估计和正则化的极大似然估计。
1、改进的迭代尺度法
2、拟牛顿法
条件随机场的预测算法
1、问题描述
条件随机场的预测问题是给定条件随机场P(Y | X)和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列) y*,即对观测序列进行标注。其预测算法是维特比算法。
2、维特比算法