[转]从标注偏执问题(the label bias problem)看MEMM,HMM,CRFs

Posted on 2012-07-31 14:44 DK_LODE 阅读(1613) 评论(0) 编辑收藏举报

不是很理解标注偏执问题重点读了一下《Conditional Random Fields: Probabilistic Modelsfor Segmenting and Labeling Sequence Data》中对于MM,MeMM标注偏执的论述，似乎对这个问题有所理解了。

标注偏执问题：

假设序列c1c2…cn,c1开始状态t0，读入c1转入状态t1,t2的概率相同，本身只有一个转移状态t3，t2则有t4，t5两个状态，这时发生的情况是t1->t3概率为1，t2->t4，t2->t5的概率小于1，之和为1，这就存在了不合理性，因为可能读入c2时t1->t3的概率本来很小，但是由于只有一个状态就归一化为1了，而t2->t4,t2->t5就算概率很大也被归一成了小于1的数，原因很简单，归一时并没有考虑到所有前一的转移状态的归一，而是只考虑了由前一个状态转移的状态进行的归一，这就使得向着转移状态少的方向进行了选择。所以MM，MEMM都存在这个问题。

为什么HMM不存在这个问题：

因为HMM把观察序列做为状态的发射出去的，因此对于每个观察状态不可能被忽略，那么转移概率即便为1，他的发射概率小同样不行，就不存在偏执问题了。条件随机域（CRFs）就是在避免局部归一化方面做了改进因此就不存在这个问题了。

为什么没有最大熵隐马尔科夫模型

HMM把概率根据贝叶斯公式分为了两个部分

argmaxP(T|W)=argmaxP(T)*P(W|T)

P(T)=Πp(ti|ti-1)即为转移概率。

P(W|T)=Πp(wi|ti)即为发射概率，

P(W|T)使用了独立性假设，为了简化问题，因此如果将最大熵融入其中那么加入很多的特征就会使T的状态过多，问题复杂化，没有办法求解。

会员力量，点亮园子希望

刷新页面返回顶部