HMM&CRF

1. HMM模型是对转移概率和表现概率直接建模，统计共现概率。
2. MEMM模型是对转移概率和表现概率建立联合概率，统计时统计的是条件概率，但MEMM容易陷入局部最优，是因为MEMM只在局部做归一化。
3. CRF模型中，统计了全局概率，同时在做归一化时，考虑了数据在全局的分布，而不是仅仅在局部归一化，这样就解决了MEMM中的标记偏置（label bias）的问题。

1.HMM

$A$ ，状态转移概率矩阵，这个就是其中一个概率分布。他是个矩阵， $A= [a_{ij}]_{N \times N}$ （N为隐藏状态集元素个数），其中 $a_{ij} = P(i_{t+1}|i_{t})， i_{t}$ 即第i个隐状态节点,即所谓的状态转移嘛。
$B$ ，观测概率矩阵，即由状态估计观测的概率，这个就是另一个概率分布。他是个矩阵， $B = [b_{ij}]_{N \times M}$ （N为隐藏状态集元素个数，M为观测集元素个数），其中 $b_{ij} = P(o_{t}|i_{t})， o_{t}$ 即第i个观测节点, $i_{t}$ 即第i个隐状态节点,即所谓的观测概率（发射概率）嘛。
$π$ ，在第一个隐状态节点 $i_{t}$ ，我第一个隐状态节点的隐状态是 $N$ 中的每一个的概率分别是多少，然后 $π$ 就是其概率分布

2. HEMM 最大熵马尔可夫模型

省略

3.CRF模型

CRF是一个判别式模型，这点和HMM有很大的区别，即对于一个无向图，CRF是对\(P(Y|X)\)建模： $P(Y )=\frac{1}{Z(x)} \prod_{c}\psi_{c}(Y_{c} ) = \frac{1}{Z(x)} \prod_{c} e^{\sum_{k}\lambda_{k}f_{k}(c,y|c,x)} = \frac{1}{Z(x)} e^{\sum_{c}\sum_{k}\lambda_{k}f_{k}(y_{i},y_{i-1},x,i)}$
CRF线性链认为词性标注问题中每个词之间是无向图模型，即每个词与全局的词有关，而不是像HMM那样认为每个词只与前一个词相关。
CRF的关键概念在于
- 判别式模型
- 特征函数--包括转移特征和状态特征

posted @ 2019-09-04 11:29 FromZeroToOne 阅读(289) 评论(0) 收藏举报

刷新页面返回顶部