隐马尔科夫模型

隐马尔科夫模型(Hidden Markov Model,简称HMM)是比较经典的机器学习模型,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用。

随着目前深度学习的崛起,尤其是 RNN, LSTM 等神经网络序列模型的火热,HMM 的地位有所下降。但是作为一个经典的模型,学习 HMM 的模型和对

应算法,有助于提高我们对解决问题建模的能力以及算法思路的拓展。

$HMM$ 模型适用的问题:寻找一个事物在一段时间里的变化模式(规律),比如计算中的指令序列、句子中的词语顺序等。

假设 $Q$ 是所有可能的隐藏状态的集合,$V$ 是所有可能的观测状态的集合,即:

$$Q = \left \{ q_{1},q_{2},\cdots,q_{n} \right \} \\
V = \left \{ v_{1},v_{2},\cdots,v_{m} \right \}$$

其中,$n$ 是所有可能的隐藏状态数,$m$ 是所有可能的观察状态数,$Q$ 的每个元素值依次为 $1$ 到 $n$,$V$ 的每个元素值依次为 $1$ 到 $m$,即 $q_{i} = i,v_{k} = k$。

对于一个长度为 $T$ 的序列,$I$ 是状态序列, $O$ 是观察序列,即

$$I = \left \{ i_{1},i_{2},\cdots,i_{T} \right \}, \; i_{t} \in Q \\
O = \left \{ o_{1},o_{2},\cdots,o_{T} \right \}, \; o_{t} \in V$$

每个元素都是数字,每个元素的下标代表时刻,也就是说:状态序列和观察序列的元素都是有先后关系的。

状态转移矩阵 $A$:包含了一个隐藏状态到另一个隐藏状态的概率,每个元素表示一个条件概率,是不同时刻的状态转换。

$$A = \begin{bmatrix}
a_{ij}
\end{bmatrix}_{n \times n} \\
a_{ij} = P(i_{t+1} = q_{j} | i_{t} = q_{i}),\; i = 1,2,\cdots,n;\; j = 1,2,\cdots,n$$

观测概率矩阵 $B$:包含了一个隐藏状态到一个观察状态的概率,每个元素表示一个条件概率,是同一时刻的状态转换。

$$B = \begin{bmatrix}
b_{jk}
\end{bmatrix}_{n \times m} \\
b_{jk} = P(o_{t} = v_{k} | i_{t} = q_{j}),\; j = 1,2,\cdots,n;\; k = 1,2,\cdots,m$$

由定义的两个条件概率矩阵可知,$HMM$ 模型做了两个假设:

   1)马尔科夫链假设:任意时刻的隐藏状态只依赖于它前一个隐藏状态。这样假设有点极端,因为很多时候我们的某一个隐藏状态不仅仅只

      依赖于前一个隐藏状态,可能是前两个或者是前三个。但是这样假设的好处就是模型简单,便于求解。用数学式子表达为

$$P(i_{t} | i_{1},i_{2},\cdots,i_{t-1}) = P(i_{t} | i_{2},\cdots,i_{t-1}) = \cdots = P(i_{t} | i_{t-1},i_{t-2}) = P(i_{t} | i_{t-1})$$

   2)观测独立性假设:任意时刻的观察状态只依赖于当前时刻的隐藏状态,这也是一个为了简化模型的假设。用数学式子表达为

$$P(o_{t} | i_{1},i_{2},\cdots,i_{t}) = P(o_{t} | i_{2},\cdots,i_{t}) = P(o_{t} | i_{t})$$

除此之外,还需要一组在时刻 $t=1$ 的隐藏状态概率分布 $\Pi$,是一个 $n$ 维度向量,每个元素表示 $t = 1$ 时刻处于某个状态的概率。

$$\Pi = \begin{bmatrix}
\pi_{i}
\end{bmatrix}_{n} \\
\pi_{i} = P(i_{1} = q_{i}), i = 1,2,\cdots,n$$

因为 $q_{i}$ 的数值就是等于 $i$,所以 $i_{1}$ 取 $q_{i}$ 的概率就是 $\pi_{q_{i}}$。

一个 $HMM$ 模型,可以由隐藏状态初始概率分布 $\Pi$, 状态转移概率矩阵 $A$ 和观测状态概率矩阵 $B$ 决定。$\Pi,A$ 决定状态序列,$B$ 决定

观测序列。因此,$HMM$ 模型可以由一个三元组 $\lambda$ 表示如下:

$$\lambda = (A,B,\Pi)$$

总之:每个观察值由同一时刻的状态值决定,每个状态值由前一时刻的状态值决定。

 

评估观察序列概率

已知 $HMM$ 模型的参数 $\lambda = (A,B,\Pi)$。其中 $A$ 是隐藏状态转移概率的矩阵,$B$ 是观测状态生成概率的矩阵, $\Pi$ 是隐藏状态的初始概率分布。

同时我们也已经得到了观测序列 $O={o_{1},o_{2},...o_{T}}$,现在我们要求观测序列 $O$ 在模型 $\lambda$ 下出现的条件概率 $P(O|\lambda)$。

1. 直接计算法

   状态序列 $I = \left \{ i_{1},i_{2},\cdots,i_{T} \right \}$ 发生的概率为(序列元素为状态的索引号):

$$P(I|\lambda) = \pi_{i_{1}}a_{i_{1}i_{2}}a_{i_{2}i_{3}} \cdots a_{i_{T-1}i_{T}}$$

   固定这个状态序列,输出观察序列 $O = \left \{ o_{1},o_{2},\cdots,o_{T} \right \}$ 的概率为

$$P(O|I,\lambda) = b_{i_{1}o_{1}}b_{i_{2}o_{2}} \cdots b_{i_{T}o_{T}}$$

   则 $O$ 和 $I$ 联合出现的概率是:

$$P(O,I|\lambda) = P(I|\lambda)P(O|I,\lambda) = \pi_{i_{1}}b_{i_{1}o_{1}} \cdot a_{i_{1}i_{2}}b_{i_{2}o_{2}} \cdots a_{i_{T-1}i_{T}}b_{i_{T}o_{T}}$$

   然后求边缘概率分布,即可得到观测序列 $O$ 在模型 $\lambda$ 下出现的条件概率:

$$P(O|\lambda) = \sum_{I}^{}P(O,I|\lambda)$$

   虽然上述方法有效,但是如果我们的隐藏状态数 $n$ 非常多的话就很麻烦,此时我们 $I$ 就有 $n^{T}$ 种组合,算法的时间复杂度是 $O(Tn^{T})$ 阶的

   这里的观察序列是给定的,每个元素都是已知的。

2. 前向算法

   引入前向概率:定义到时刻 $t$ 的部分观测序列为 $o_{1},o_{2},\cdots,o_{t}$ 且隐藏状态为 $q_{i}$ 的概率为前向概率,记作

$$\alpha_{t}(i) = P(o_{1},o_{2}, \cdots, o_{t}, i_{t} = q_{i} | \lambda)$$

   $\alpha$ 的下标 $t$ 表示到时刻 $t$,参数 $i$ 表示时刻 $t$ 的隐藏状态是 $q_{i}$。

   前向算法相当于自低向上的迭代过程。现在我们需要为下面两个式子建立联系:

$$\left\{\begin{matrix}
\alpha_{t}(j) = P(o_{1},o_{2}, \cdots, o_{t}, i_{t} = q_{j} | \lambda) \\
\alpha_{t+1}(i) = P(o_{1},o_{2}, \cdots, o_{t},o_{t+1}, i_{t+1} = q_{i} | \lambda)
\end{matrix}\right.$$

   因为 $o_{t+1}$ 由 $i_{t+1}$ 决定,所以先来看下在 $\alpha_{t}(j)$ 的基础上,隐藏状态转为 $i_{t+1}$ 的概率。根据全概率公式有

$$P(o_{1},o_{2}, \cdots, o_{t}, i_{t+1} = q_{i} | \lambda) \\
= \sum_{q_{j}}^{}P(o_{1},o_{2}, \cdots, o_{t},i_{t}=q_{j},i_{t+1} = q_{i} | \lambda) \\
= \sum_{q_{j}}^{}P(o_{1},o_{2}, \cdots, o_{t},i_{t}=q_{j}|\lambda)P(i_{t+1} = q_{i} |o_{1},o_{2}, \cdots, o_{t},i_{t}=q_{j}, \lambda) \\
= \sum_{j = 1}^{n}\alpha_{t}(j) \cdot a_{ji}$$

   进一步地

$$\alpha_{t+1}(i) = P(o_{1},o_{2}, \cdots, o_{t},o_{t+1},i_{t+1} = q_{i} | \lambda) \\
= P(o_{1},o_{2}, \cdots, o_{t}, i_{t+1} = q_{i} | \lambda)P(o_{t+1} | o_{1},o_{2}, \cdots, o_{t}, i_{t+1} = q_{i}, \lambda) \\
= \left [\sum_{j = 1}^{n}\alpha_{t}(j) \cdot a_{ji} \right ] \cdot b_{i,o_{t+1}}$$

   再根据全概率公式得

$$P(O|\lambda) = P(o_{1},o_{2}, \cdots, o_{T} | \lambda) \\
= \sum_{q_{j}}^{}P(o_{1},o_{2}, \cdots, o_{T},i_{T} = q_{j} | \lambda) \\
= \sum_{j=1}^{n}\alpha_{T}(j)$$

      

   由图可以看出,此时的时间复杂度为 $O(Tn^{2})$。

3. 后向算法

   引入后向概率:定义在时刻 $t$ 隐藏状态为 $q_{i}$ 的条件下,从 $t+1$ 到 $T$ 的部分观测序列为 $o_{t+1},o_{t+2},\cdots,o_{T}$ 的概率为后向概率,记作

$$\beta_{t}(i) = P(o_{t+1},o_{t+2},\cdots,o_{T} | i_{t} = q_{i},\lambda)$$

   与前向概率不同的是,这个式子只包含了 $t$ 时刻的隐藏状态,而没有包含 $t$ 时刻的输出 $o_{t}$,现在我们需要为下面两个式子建立联系:

$$\left\{\begin{matrix}
\beta_{t}(i) = P(o_{t+1},o_{t+2},\cdots,o_{T} | i_{t} = q_{i},\lambda)  \\
\beta_{t+1}(j) = P(o_{t+2},o_{t+3}, \cdots,o_{T}| i_{t+1} = q_{j},\lambda)
\end{matrix}\right.$$

   无论是状态矩阵还是观测矩阵,概率都是从前往后推导的,所以这里也从前往后推,根据全概率公式有

$$\beta_{t}(i) = P(o_{t+1},o_{t+2},\cdots,o_{T} | i_{t} = q_{i},\lambda) \\
= \sum_{q_{j}}^{}P(o_{t+1},o_{t+2},\cdots,o_{T},i_{t+1} = q_{j} | i_{t} = q_{i},\lambda) \\
= \sum_{j=1}^{n}P(o_{t+1},o_{t+2},\cdots,o_{T} | i_{t+1} = q_{j},i_{t} = q_{i},\lambda) \cdot P(i_{t+1} = q_{j} | i_{t} = q_{i},\lambda) \\
= \sum_{j=1}^{n}P(o_{t+1},o_{t+2},\cdots,o_{T} | i_{t+1} = q_{j},i_{t} = q_{i},\lambda) \cdot a_{ij}$$

   由观测独立性假设可知,$o_{t+1}$ 只与 $i_{t+1}$ 有关,和 $i_{t}$ 无关,当然 $o_{t+2},o_{t+3},...,o_{T}$ 与 $i_{t}$ 更没有关系了,所以

$$\beta_{t}(i) = \sum_{j=1}^{n}P(o_{t+1},o_{t+2},\cdots,o_{T} | i_{t+1} = q_{j},\lambda) \cdot a_{ij} \\
= \sum_{j=1}^{n}P(o_{t+1} | o_{t+2},\cdots,o_{T},i_{t+1} = q_{j},\lambda) \cdot P(o_{t+2},\cdots,o_{T} | i_{t+1} = q_{j},\lambda) \cdot a_{ij}$$

   还是因为 $o_{t+1}$ 只与 $i_{t+1}$ 有关,所以

$$\beta_{t}(i) = \sum_{j=1}^{n}P(o_{t+1} | i_{t+1} = q_{j},\lambda) \cdot P(o_{t+2},\cdots,o_{T} | i_{t+1} = q_{j},\lambda) \cdot a_{ij} \\
= \sum_{j=1}^{n}b_{j,o_{t+1}} \cdot \beta_{t+1}(j) \cdot a_{ij}$$

   这里只是数学上纯逻辑的推导,感觉很难记忆和理解。

$\bullet$ 考虑 $\alpha_{t}(i) \beta_{t}(i)$

$$\alpha_{t}(i)\beta_{t}(i) = P(o_{1},o_{2}, \cdots, o_{t}, i_{t} = q_{i} | \lambda) P(o_{t+1},o_{t+2},\cdots,o_{T} | i_{t} = q_{i},\lambda) \\
= P(i_{t} = q_{i})P(o_{1},o_{2}, \cdots, o_{t} | i_{t} = q_{i}, \lambda) P(o_{t+1},o_{t+2},\cdots,o_{T} | i_{t} = q_{i},\lambda) \\
= P(i_{t} = q_{i})P(o_{1},o_{2}, \cdots, o_{t},o_{t+1},o_{t+2},\cdots,o_{T} | i_{t} = q_{i}, \lambda) \\
= P(o_{1},o_{2},\cdots,o_{T},i_{t} = q_{i} | \lambda)$$

 

学习算法

给定训练数据为长度为 $T$ 的观测序列 $O = \left \{ o_{1},o_{2},\cdots,o_{T} \right \}$,而没有对应的状态序列,目标是学习隐马尔科夫模型的参数 $\lambda = (A,B,\pi)$

将观测不到的隐藏数据记为 $I = \left \{ i_{1},i_{2},\cdots,i_{T} \right \}$那么马尔可夫模型事实上就是一个含有隐变量的概率模型:

$$P(O|\lambda) = \sum_{I}^{}P(O,I|\lambda)$$

这里的 $\sum_{I}^{}$ 表示遍历所有隐藏序列 $I$ 的可能取值。可以通过 $EM$ 算法来求解参数。我们需要最大化的似然函数为

$$L(\lambda,\lambda_{j}) = \sum_{I}^{}P(I|O,\lambda_{j})\ln P(O,I|\lambda)$$

在 $M$ 步我们要极大化上式,得到一个 $\lambda_{j+1}$。计算联合分布 $P(O,I|\lambda)$ 的表达式如下:

$$P(O,I|\lambda) = \left (\pi_{i_{1}}b_{i_{1}o_{1}}  \right ) \cdot \left (a_{i_{1}i_{2}}b_{i_{2}o_{2}}  \right ) \cdots \left (a_{i_{T-1}i_{T}}b_{i_{T}o_{T}}  \right )$$

由于

$$P(I|O,\lambda_{j}) = \frac{P(I,O|\lambda_{j})}{P(O|\lambda_{j})}$$

而 $P(O|\lambda_{j})$ 是常数,因此我们要极大化的式子等价于:

$$L(\lambda,\lambda_{j}) = \sum_{I}^{}P(O,I|\lambda_{j})\ln P(O,I|\lambda)$$

将联合分布表达式代入得

$$L(\lambda,\lambda_{j}) = \sum_{I}^{}P(O,I|\lambda_{j}) \left (\ln \pi_{i_{1}} + \sum_{t = 1}^{T-1}\ln a_{i_{t}i_{t+1}} + \sum_{t = 1}^{T}\ln b_{i_{t}o_{t}}  \right ) \\
= \sum_{I}^{}\ln \pi_{i_{1}} \cdot P(O,I|\lambda_{j}) + \sum_{I}^{}\left ( \sum_{t = 1}^{T-1}\ln a_{i_{t}i_{t+1}} \right )P(O,I|\lambda_{j}) + \sum_{I}^{}\left ( \sum_{t = 1}^{T}\ln b_{i_{t}o_{t}} \right )P(O,I|\lambda_{j})$$

这个式子有 $3$ 项,只需对各项分别极大化。

1)第一项可以写成:

$$\sum_{I}^{}\ln \pi_{i_{1}} \cdot P(O,I|\lambda_{j}) = \sum_{i_{1}}^{}\sum_{i_{2},i_{3},\cdots,i_{T}}^{}\ln \pi_{i_{1}} \cdot P(O,i_{1},i_{2},i_{3},\cdots,i_{T} | \lambda_{j}) \\
= \sum_{i_{1}}^{} \ln \pi_{i_{1}} \cdot P(O,i_{1} | \lambda_{j}) \\
= \sum_{i = 1}^{n} \ln \pi_{i} \cdot P(O,i_{1} = i | \lambda_{j})$$

   其中 $n$ 为可能的隐藏状态数,由于

$$\sum_{i = 1}^{n}\pi_{i} = 1$$

   根据拉格朗日子乘法,得到要极大化的拉格朗日函数为:

$$\sum_{i = 1}^{n} \ln \pi_{i} \cdot P(O,i_{1} = i | \lambda_{j}) + \gamma \left ( \sum_{i = 1}^{n}\pi_{i} - 1 \right )$$

   上式对 $\pi_{i}$ 求偏导数并令结果为0, 可解得

$$\pi_{i} = \frac{P(O,i_{1} = i | \lambda_{j})}{P(O | \lambda_{j})}$$

2)第二项可以写成:

$$\sum_{I}^{}\left ( \sum_{t = 1}^{T-1}\ln a_{i_{t}i_{t+1}} \right )P(O,I|\lambda_{j})
= \sum_{I}^{}\sum_{t = 1}^{T-1}\ln a_{i_{t}i_{t+1}}P(O,I|\lambda_{j})
= \sum_{t = 1}^{T-1}\sum_{I}^{}\ln a_{i_{t}i_{t+1}}P(O,I|\lambda_{j}) \\
= \sum_{t = 1}^{T-1}\sum_{i_{t}}^{}\sum_{i_{t+1}}^{}\sum_{(i_{1},\cdots,i_{t-1},i_{t+2},\cdots,i_{T})}^{}\ln a_{i_{t}i_{t+1}}P(O,i_{1},\cdots,i_{t-1},i_{t},i_{t+1}i_{t+2},\cdots,i_{T} | \lambda_{j} \\
= \sum_{t = 1}^{T-1}\sum_{i_{t}}^{}\sum_{i_{t+1}}^{}\ln a_{i_{t}i_{t+1}}P(O,i_{t},i_{t+1} | \lambda_{j}) \\
= \sum_{t = 1}^{T-1}\sum_{i=1}^{n}\sum_{j=1}^{n}\ln a_{ij}P(O,i_{t},i_{t+1} | \lambda_{j})$$

   由于

$$\sum_{i = 1}^{n}a_{ij} = 1$$

   建立拉格朗日函数可解得

$$a_{ij} = \frac{\sum_{t = 1}^{T-1}P(O,i_{t}=i,i_{t+1}=j | \lambda_{j})}{\sum_{t = 1}^{T-1}P(O,i_{t}=i | \lambda_{j})}$$

3)第三项可以写成:

$$\sum_{I}^{}\left ( \sum_{t = 1}^{T}\ln b_{i_{t}o_{t}} \right )P(O,I|\lambda_{j}) = \sum_{I}^{}\sum_{t = 1}^{T}\ln b_{i_{t}o_{t}}P(O,I|\lambda_{j}) = \sum_{t = 1}^{T}\sum_{I}^{}\ln b_{i_{t}o_{t}}P(O,I|\lambda_{j})\\
= \sum_{t = 1}^{T}\sum_{i_{t}}^{}\sum_{(i_{1},\cdots,i_{t-1},i_{t+1},\cdots,i_{T})}^{}\ln b_{i_{t}o_{t}} P(O,i_{1},\cdots,i_{t-1},i_{t},i_{t+1},\cdots,i_{T}|\lambda_{j}) \\
= \sum_{t = 1}^{T}\sum_{i_{t}}^{}\ln b_{i_{t}o_{t}}P(O,i_{t} | \lambda_{j}) \\
= \sum_{t = 1}^{T}\sum_{j=1}^{n}\ln b_{j,o_{t}}P(O,i_{t} = j | \lambda_{j})$$

   建立拉格朗日函数求解得

$$b_{jk} = \frac{\sum_{i=1}^{T}P(O,i_{t}=j | \lambda_{j})I(o_{t} = v_{k})}{\sum_{i=1}^{T}P(O,i_{t}=j | \lambda_{j})}$$

 

维特比算法

在 $HMM$ 模型的解码问题中,给定模型 $\lambda=(A,B,\Pi)$ 和观测序列 $O = \left \{ o_{1},o_{2},...,o_{T} \right \}$,求给定观测序列 $O$ 条件下,最可能出现的对应的状态序

$I^{*} = \left \{ i_{1}^{∗},i_{2}^{*},...,i_{T}^{*} \right \}$,即 $P(I^{*}|O)$ 要最大化。

维特比算法定义了两个局部状态用于递推:

1)第一个局部状态是在时刻 $t$ 隐藏状态为 $i$ 所有可能的状态转移路径 $i_{1},i_{2},...,i_{t}$ 中的概率最大值。记为 $\delta_{t}(i)$,即

$$\delta_{t}(i) = \max P(i_{1},i_{2},\cdots,i_{t-1},i_{t} = i,o_{1},o_{2},\cdots,o_{t} | \lambda), i = 1,2,\cdots,n$$

   同一时刻,需要计算得到 $n$ 个概率,即得到 $\delta_{t}(1),\delta_{t}(2),...,\delta_{t}(n)$,因为一共有 $T$ 个时刻,所以这样的概率需要计算 $nT$ 个。

   相邻时刻概率间的递推公式为

$$\delta_{t+1}(j) = \max_{1 \leq i \leq n}\left [\delta_{t}(i)a_{ij}  \right ]b_{j,o_{t+1}}, \; j = 1,2,\cdots,n$$

   怎么理解呢?如下图:

      

   我们的目标是要在 $S$ 和 $E$ 之间找一条能使 $P(I^{*}|O)$ 最大的路径,从 $S$ 开始($0$ 时刻)从左到右一列一列地来看。

   a. 从 $0$ 时刻到 $1$ 时刻,有 $n$ 种可能,即状态 $i_{1}$ 的取值有 $n$ 个可能,此时没办法判断哪个状态会是结果路径中的一部分。

   b. 从 $1$ 时刻到 $2$ 时刻,当 $i_{2} = q_{1}$ 时,从到达这个结点的 $n$ 条连线中,分别计算如下概率

$$\pi_{1}a_{11} \\
\pi_{2}a_{21} \\
\vdots \\
\pi_{n}a_{n1}$$

      肯定可以找出最大的那个概率,假如对应图中红色连接线,即当 $i_{1} = q_{2}$ 时,$P(i_{1},i_{2} = q_{1},o_{1},o_{2})$ 最大。

      同理,当 $i_{2} = q_{2}$ 时,也对应一个 $i_{1} = q_{n}$ 使概率最大,依此类推,在 $t = 1$ 到 $t = 2$ 之间可以找到 $n$ 条红色连接线。

      这便是维特比算法的重点,本来在时刻 $1$ 和时刻 $2$ 之间存在 $n^{2}$ 条路径,现在变成了 $n$ 条,因为只有红色路径才可能是全局最优路径

      的一部分,这就有点像最短路径算法,可以通过反证法证明。

   c. 从 $2$ 时刻到 $3$ 时刻,也可以找到 $n$ 条红色路径,直接在已经得到的 $\delta_{2}(1),\delta_{2}(2),...,\delta_{2}(n)$ 的基础上计算。即递推公式所展示的那样。

2)第二个局部状态由第一个局部状态递推得到。我们定义在时刻 $t$ 隐藏状态为 $i$ 的所有单个状态转移路径 $(i_{1},i_{2},...,i_{t-1},i_{t}=i)$ 中概率最大

   的转移路径中第 $t−1$ 个节点的隐藏状态为 $\psi_{t}(i)$,其递推表达式可以表示为:

$$\psi_{t}(i) = \max_{1 \leq j \leq n}\left [\delta_{t-1}(j)a_{ji}  \right ]$$

   其实就是保存了到达该结点的前一个结点。

 

posted @ 2020-11-16 12:07  _yanghh  阅读(297)  评论(0编辑  收藏  举报