[转]从标注偏执问题(the label bias problem)看MEMM,HMM,CRFs

Posted on 2012-07-31 14:44  DK_LODE  阅读(1613)  评论(0编辑  收藏  举报

不是很理解标注偏执问题重点读了一下《Conditional Random Fields: Probabilistic Modelsfor Segmenting and Labeling Sequence Data》中对于MM,MeMM标注偏执的论述,似乎对这个问题有所理解了。

  1. 标注偏执问题:

假设序列c1c2…cn,c1开始状态t0,读入c1转入状态t1,t2的概率相同,本身只有一个转移状态t3,t2则有t4,t5两个状态,这时发生的情况是t1->t3概率为1,t2->t4,t2->t5的概率小于1,之和为1,这就存在了不合理性,因为可能读入c2时t1->t3的概率本来很小,但是由于只有一个状态就归一化为1了,而t2->t4,t2->t5就算概率很大也被归一成了小于1的数,原因很简单,归一时并没有考虑到所有前一的转移状态的归一,而是只考虑了由前一个状态转移的状态进行的归一,这就使得向着转移状态少的方向进行了选择。所以MM,MEMM都存在这个问题。

  1. 为什么HMM不存在这个问题:

因为HMM把观察序列做为状态的发射出去的,因此对于每个观察状态不可能被忽略,那么转移概率即便为1,他的发射概率小同样不行,就不存在偏执问题了。条件随机域(CRFs)就是在避免局部归一化方面做了改进因此就不存在这个问题了。

  1. 为什么没有最大熵隐马尔科夫模型

HMM把概率根据贝叶斯公式分为了两个部分

argmaxP(T|W)=argmaxP(T)*P(W|T)

P(T)=Πp(ti|ti-1)即为转移概率。

P(W|T)=Πp(wi|ti)即为发射概率,

P(W|T)使用了独立性假设,为了简化问题,因此如果将最大熵融入其中那么加入很多的特征就会使T的状态过多,问题复杂化,没有办法求解。