HMM的Baum-Welch算法和Viterbi算法公式推导细节（转载）

前言

在上一篇博文中，我简单地介绍了隐马尔科夫模型HMM，并且重点介绍了HMM的三个问题中的第一个，即概率计算问题。首先回顾一下这三个问题都是什么以及解决每个问题的主流算法：

在上一篇概率计算问题的最后，我列出了几个用前向概率和后向概率表示的一些有意义的概率值和期望的计算，它们的直接意义就是用于表示学习问题和预测问题公式推导中复杂的中间结果的表示。所以，要想彻底搞懂Baum-Welch算法和Viterbi算法算法，就必须清楚地明白这些概率和期望到底是怎么计算出来的。

然而，本博文并不打算将这两个算法全部的公式推导写下来，那太繁杂了。如果想窥探这两个算法的细节，直接看李航博士的《统计学习方法》对应的内容就好了。本文只是将这两个算法推导中的一些隐晦的地方做一个通俗的解释，希望能给像我一样数学功底一般的朋友带来帮助。

Baum-Welch算法是为了解决HMM的参数估计问题而提出的，而且是没有标注也就是HMM的状态序列未知的参数估计问题。具体来说，就是已知观测序列

首先按照EM算法，我们需要先写出Q函数。Q函数是完全数据的对数似然函数关于给定模型参数和观测变量的前提下对隐变量的条件概率分布的期望。如下：

Q (λ, λ ¯) = \sum I l o g P (O, I | λ) P (I | O, λ ¯)

我们写出Q函数之后后面就要对它进行极大化，也就是说EM算法的M步骤。既然是最大化，那么只要保证不影响最终的结果，对Q函数进行对于最大化来说没有影响的常数因子乘除是可以的。我们注意到Q函数的后部分

P (I | O, λ ¯) = P ( O , I | λ ¯ ) P ( O | λ ¯ )

Q (λ, λ ¯) = \sum I l o g P (O, I | λ) P (O, I |, λ ¯)

又因为完全数据可以写成这样：

l o g P (O, I | λ) = π i 1 b i 1 (o 1) a i 1 i 2 b

Q (λ, λ ¯) = \sum I l o g π i 1 P (O, I |, λ ¯) + + \sum I (\sum t

+ \sum I (\sum t = 1 T l o g b i t (o t)) P (O, I |, λ ¯)

Q (λ, λ ¯) = \sum i = 1 N l o g π i P (O, i 1 = i |, λ ¯) + \sum

+ \sum j = 1 N \sum t = 1 T l o g b j (o t) P (O, i t = j |,

OK，Baum-welch算法就介绍到这里。

Viterbi算法应用于HMM的识别问题，也称解码问题。它通过应用了动态规划的思想避免了复杂度很高的运算，为识别时效性提供了强有力的支持。这个算法并不难理解，这里只是对其一个细节进行阐述。

Viterbi算法实际上解决

δ t (i) = max i 1, i 2, . . ., i t - 1 P (i t = i, i t - 1, .

δ t + 1 (i) = max i 1, i 2, . . ., i t P (i t + 1 = i, i

= max 1 \leq j \leq N [δ t (j) a j i] b i (o t + 1)

P * = max 1 \leq j \leq N δ T (i)

算法的主体就是这样，那么现在问题来了。识别问题我们要解决

个人觉得，还是应为

a j i = P (i t + 1 = q i | i t = q j)

a j i = P (i t + 1 = q i | i t = q j, o 1, o 2, . . ., o t)

posted @ 2017-04-14 11:28 狂饮地沟油阅读(5498) 评论(0) 编辑收藏举报

刷新页面返回顶部