fromzhihuHMM

机器学习-隐马尔科夫模型

隐马尔科夫模型

1 基本概念

状态序列（state sequence）：隐藏的马尔可夫随机链生成的状态序列，不可观测

观测序列（observation sequence）：每个状态生成一个观测，由此产生观测的随机序列

隐马尔科夫模型的三要素：

状态转移概率矩阵： $A=[a_{ij}]_{N \times N}$ ， $N$ 为所有可能的状态数
观测概率矩阵： $B=[b_{j}(k)]_{N \times M}$ ， $M$ 为所有的观测的集合
初始状态概率向量： $\pi=\left(\pi_{i}\right)$ ，其中， $\pi_{i}=P\left(i_{1}=q_{i}\right)\ ,i=1,2,\ldots,N$

隐马尔可夫模型的表示： $\lambda=\left(A,B,\pi\right)$

隐马尔科夫模型的两个基本假设：

齐次马尔可夫假设： $P(i_t|i_{t-1},o_{t-1},\dots,i_1,o_1) = P(i_t|i_{t-1}), t=1,2,\dots,T$
假设隐藏的马尔可夫链在任意时刻 $t$ 的状态 $\rightarrow i_t$
只依赖于其前一时刻的状态 $\rightarrow i_{t-1}$
与其他时刻的状态 $\rightarrow i_{t-1, \dots, i_1}$
及观测无关 $\rightarrow o_{t-1},\dots,o_1$
也与时刻 $t$ 无关 $\rightarrow t=1,2,\dots,T$
观测独立性假设： $P(o_t|i_T,o_T,i_{T-1},o_{T-1},\dots,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},\dots,i_1,o_1)=P(o_t|i_t)$
假设任意时刻 $t$ 的观测 $\rightarrow o_t$
只依赖于该时刻的马尔可夫链的状态 $\rightarrow i_t$
与其他观测 $\rightarrow o_T,o_{T-1},\dots,o_{t+1},o_{t-1},\dots,o_1$
及状态无关 $\rightarrow i_T,i_{T-1},\dots,i_{t+1},i_{t-1},\dots,i_1$

隐马尔科夫模型的三个基本问题：

概率计算问题：在模型 $\lambda=(A,B,\pi)$ 下观测序列 $O=(o_1,o_2,\dots,o_T)$ 出现的概率 $P(O|\lambda)$
输入：模型 $\lambda=(A,B,\pi)$ ，观测序列 $O=(o_1,o_2,\dots,o_T)$ 输出： $P(O|\lambda)$
学习问题：已知观测序列 $O=(o_1,o_2,\dots,o_T)$ ，估计模型 $\lambda=(A,B,\pi)$ 的参数，使观测序列概率 $P(O|\lambda)$ 最大，用极大似然法估计
输入：观测序列 $O=(o_1,o_2,\dots,o_T)$ 输出：输出 $\lambda=(A,B,\pi)$
预测问题，也称为解码问题(Decoding)
输入：模型 $\lambda=(A,B,\pi)$ ，观测序列 $O=(o_1,o_2,\dots,o_T)$ 输出：状态序列 $I=(i_1,i_2,\dots,i_T)$

标注问题，给定观测的序列预测对应的标记序列。状态对应着标记。

2 概率计算问题

2.1 直接计算法

列举所有的可能状态序列 $I=(i_{1},i_{2},\dots,i_{T})$ ，长度为 $T$

计算： $P(O|\lambda)=\sum_{I}P(O|I,\lambda)P(I|\lambda)$

计算量： $O(TN^T)$ 阶的，故不可行

2.2 前向算法

前向概率：给定马尔可夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1, o_2, \dots ,o_t$ ，且状态 $q_i$ 的概率

记作： $\alpha_t(i)=P(o_1,o_2,\dots,o_t,i_t=q_i|\lambda)$

观测序列概率的前向算法：

输入： $\lambda , O$
输出： $P(O|\lambda)$

初值： $\alpha_1(i)=\pi_ib_i(o_1), i=1,2,\dots,N$ ，式中观测值为 $o_1$ ， $i$ 的含义是对应状态 $q_i$
递推： $\alpha_{t+1}(i) = \left[\sum\limits_{j=1}^N\alpha_t(j)a_{ji}\right]b_i(o_{t+1})\color{black}, \ i=1,2,\dots,N, \ t = 1,2,\dots,T-1$
式中， $q_{j}$ 为 $t$ 时刻所处的状态， $q_{i}$ 为 $t+1$ 时刻所处的状态，从中可以看出 $i,j$ 的含义
转移矩阵 $A$ 维度 $N\times N$ , 观测矩阵 $B$ 维度 $N\times M$ ，具体的观测值 $o$ 可以表示成one-hot形式，维度 $M\times N$
所以 $N\alpha$ 的维度： $\alpha = \alpha ABo=1\times N\times N\times N \times N\times M \times M\times N=1\times N$
终止： $P(O|\lambda)=\sum\limits_{i=1}^N\alpha_T(i)=\sum\limits_{i=1}^N\alpha_T(i)\beta_T(i)$

计算量： $O(N^2T)$ 阶的，故可行

前向算法高效的关键：局部计算前向概率，然后利用路径结构将前向的概率“递推”到全局，得到 $P(O|\lambda)$ ，每一次计算直接引用前一时刻的计算结果，避免重复计算

2.3 后向算法

后向概率：给定马尔可夫模型 $\lambda$ ，定义到时刻 $t$ 状态为 $q_i$ 的条件下，从 $t+1$ 到 $T$ 的部分观测序列为 $o_{t+1}, o_{t+2}, \dots ,o_T$ 的概率

记作： $\beta_t(i)=P(o_{t+1},o_{t+2},\dots,o_T|i_t=q_i, \lambda)$

观测序列概率的后向算法：

输入: $\lambda , O$ 输出: $P(O|\lambda)$

终值： $\beta_T(i)=1, i=1,2,\dots,N$ ，在 $t=T$ 时刻, 观测序列已经确定
从后往前递推： $\beta_t(i)=\sum\limits_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j)\color{black}, i=1,2,\dots,N, t=T-1, T-2,\dots,1$
$\beta = ABo\beta = N \times N \times N \times M \times M \times N \times N \times 1 = N \times 1$
计算 $\beta_t(i)$ ：到时刻 $t$ 状态为 $q_i$ 的条件下，从 $t+1$ 之后的观测序列为 $o_{t+1}, o_{t+2}, \dots ,o_T$ 的后向概率，需要考虑三项：

$a_{ij}$ ：在时刻 $t+1$ 所有可能的 $N$ 个状态 $q_j$ 的转移概率
$b_j(o_{t+1})$ ：在此状态下的观测 $o_{t+1}$ 的观测概率
$\beta_{t+1}(j)$ ：考虑状态 $q_j$ 之后的观测序列的后向概率

$P(O|\lambda)=\sum\limits_{i=1}^N\pi_ib_i(o_1)\beta_1(i)=\sum\limits_{i=1}\alpha_1(i)\beta_1(i)$

2.4 概率与期望

输入模型 $\lambda$ 与观测 $O$ ，输出在时刻 $t$ 处于状态 $q_i$ 的概率： $\gamma_t(i)$
输入模型 $\lambda$ 与观测 $O$ ，输出在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t+1$ 处于状态 $q_j$ 的概率： $\xi_t(i,j)$
在观测 $O$ 下状态 $i$ 出现的期望值： $\sum\limits_{t=1}^{T}\gamma_t(i)$
在观测 $O$ 下状态 $i$ 转移的期望值： $\sum\limits_{t=1}^{T-1}\gamma_t(i)$
在观测 $O$ 下状态 $i$ 转移到状态 $j$ 的期望值： $\sum\limits_{t=1}^{T-1}\xi_t(i)$

3 学习问题

3.1 监督学习算法

提供训练数据包括观测序列和对应的状态序列，利用极大似然估计法来估计隐马尔可夫模型的参数

人工标注训练数据成本很高

3.2 Baum-Welch算法

Baum-Welch算法是EM算法在隐马尔可夫模型学习中的具体实现，由Baum和Welch提出

马尔可夫模型实际上是一个含有隐变量的概率模型： $P(O|\lambda)=\sum\limits_IP(O|I,\lambda)P(I|\lambda)$

Baum-Welch算法：

输入: 观测数据 $O=(o_1, o_2, \dots, o_T)$
输出: 隐马尔可夫模型参数

初始化：对 $n=0$ ，选取 $a_{ij}^{(0)}, b_j(k)^{(0)}, \pi_i^{(0)}$ ，得到模型参数 $\lambda^{(0)}=(A^{(0)}, B^{(0)},\pi^{(0)})$
递推：对 $n=1,2,\dots$ ，

$a{ij}^{(n+1)}=\frac{\sum\limits{t=1}^{T-1}\xi_t(i,j)}{\sum\limits_{t=1}^{T-1}\gamma_t(i)} \\$ $b_j(k)^{(n+1)}=\frac{\sum\limits_{t=1,o_t=v_k}^{T}\gamma_t(j)}{\sum\limits_{t=1}^T\gamma_t(j)}\pi_i^{(n+1)}=\gamma_1(i) \\$ $\pi_i^{(n+1)}=\gamma_1(i) \\$

3. 终止：得到模型参数 $\lambda^{(n+1)}=(A^{(n+1)}, B^{(n+1)},\pi^{(n+1)})$

4 预测算法

4.1 近似算法

每个时刻最有可能的状态 $i_t^*$ 是： $i_t^*=\arg \max\limits_{1\leqslant i\leqslant N}\left[\gamma_t(i)\right], t=1,2,\dots,T$

得到序列 $I^*=(i_1^*,i_2^*,\dots,i_T^*)$ ，作为预测的结果

特点：计算简单，不能保证预测的状态序列整体是最有可能的状态序列，有可能存在转移概率为0的相邻状态

即对某些 $i,j,a_{ij}=0$

4.2 维特比算法

维特比算法：使用动态规划解隐马尔科夫模型，求概率最大路径，这条路径对应一个状态序列

输入: 模型 $\lambda=(A, B, \pi)$ 和观测 $O=(o_1, o_2,\dots,o_T)$
输出: 最优路径 $I^*=(i_1^*, i_2^*,\dots,i_T^*)$

初始化 $\delta_1(i)=\pi_ib_i(o_1), i=1,2,\dots,N$ $\psi_1(i)=0, i=1,2,\dots,N$
递推 $t=2,3,\dots,T$ $\delta_t(i)=\max\limits_{1\leqslant j \leqslant N}\left[\delta_{t-1}(j)a_{ji}\right]b_i(o_t), i=1,2,\dots,N$ $\psi_t(j)=\arg\max\limits_{1\leqslant j \leqslant N}\left[\delta_{t-1}(j)a_{ji}\right], i=1,2,\dots,N$
终止 $P^*=\max\limits_{1\leqslant i\leqslant N}\delta_T(i)$ $i_T^*=\arg\max\limits_{1\leqslant i \leqslant N}\left[ \delta_T(i)\right]$
最优路径回溯 $t=T-1, T-2, \dots,1$ $i_t^*=\psi_{t+1}(i_{i+1}^*)$