概率图模型之条件随机场(CRF)
CRF及其应用
开宗明义,概念先行~
条件随机域模型是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即给定观察序列O,求最佳序列S。
1 链式条件随机场模型的图结构
2 条件随机场模型的分解式
2 原理:
(1)目标函数:基于最大熵原则进行建模,定义样本条件熵
(2)约束条件:
约束特征的样本期望与模型期望相同:
另外:
(3)求解:运用拉格朗日乘数法,求解出条件随机场的分布形式如下:
4 与其他算法的比较
优点:
(1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)————与HMM比较
(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。————与MEMM比较
(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————与ME比较
缺点:训练代价大、复杂度高
5 应用
常见的序列标注问题,如分词、词性标注等等。