星云外

概率图模型之条件随机场(CRF)

CRF及其应用

开宗明义,概念先行~

条件随机域模型是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即给定观察序列O,求最佳序列S。

1 链式条件随机场模型的图结构

clip_image002

2 条件随机场模型的分解式

clip_image004

clip_image006

2 原理:

(1)目标函数:基于最大熵原则进行建模,定义样本条件熵

clip_image008

(2)约束条件:

以团为单位定义特征clip_image010

约束特征的样本期望与模型期望相同:

clip_image012

另外:

clip_image014

(3)求解:运用拉格朗日乘数法,求解出条件随机场的分布形式如下:

clip_image016

4 与其他算法的比较

优点:

(1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)————与HMM比较

(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。­­————与MEMM比较

(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。

­­ ————与ME比较

缺点:训练代价大、复杂度高

5 应用

常见的序列标注问题,如分词、词性标注等等。

posted on 2010-04-16 20:49  星云外  阅读(3131)  评论(1编辑  收藏  举报