隐马尔可夫模型（一）

基本概念

隐马尔可夫由初始概率分布、状态转移概率分布以及观测概率分布确定。

设Q是所有可能的状态，V是所有可能的观测

Q={q₁,q₂,...,q_N}, V={v₁,v₂,...,v_M}

其中，N为所有可能的状态数，M为所有可能的观测数。

设O是一个长度为T的观测序列，I为对应的状态序列

O={o₁,o₂,...,o_T}, I={i₁,i₂,...,i_T}

状态转移概率矩阵A为

A=[a_ij]_NxN

其中a_ij=P(q_j|q_i)，表示t时刻处于q_i状态转移到t+1时刻q_j状态的条件概率。

观测概率矩阵B为

B=[b_i(m)]_NxM

其中b_i(m)=P(v_m|q_i)，表示t时刻处于q_i状态下观测到v_m的条件概率。

初始状态概率向量π为

π=(π_i)

其中π_i=P(i₁=q_i)，表示t=1时刻下状态为q_i的概率。

隐马尔可夫模型λ由初始状态概率向量π、状态转移概率矩阵A和观测概率矩阵B决定（隐马尔可夫模型的三要素），即

λ=(A,B,π)

隐马尔可夫模型基于以下两个基本假设：

（1）齐次马尔可夫性假设，在任意时刻t的状态只依赖于其前一时刻(t-1)的状态，即

P(i_t|i_t-1,o_t-1,...i₁,o₁)=P(i_t|i_t-1), t = 1,2,...T

其中t=1时，P(i₁|i₀)=π_i

（2）观测独立性假设，任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他任意前后时刻的观测和状态均无关，即

P(o_t|i_T,o_T,...i_t+1,o_t+1,i_t,i_t-1,o_t-1,...i₁,o₁)=P(o_t|i_t)

3个基本问题

隐马尔可夫模型有三个基本问题：

概率计算问题。给定模型λ=(A,B,π)和观测序列O={o₁,o₂,...o_T}，计算此观测序列出现的概率P(O|λ).
学习问题。已知观测序列O=(o₁,o₂,...,o_T)，估计模型参数λ=(A,B,π)，使得在该模型下观测序列的概率P(O|λ)最大，即用极大似然估计的方法估计参数。
预测问题（解码问题）。已知模型λ=(A,B,π)和观测序列O={o₁,o₂,...o_T}，求使得条件概率P(I|O)最大的状态序列I=(i₁,i₂,...i_T)，也就是求最有可能的状态序列。

由于目前自然语言处理(NLP)中常利用这个模型来进行中文分词，这里先介绍一下这个例子，帮助理解，具体后面会详细介绍。

中文分词

状态集合Q={B,E,M,S}，分别表示开始、结束、中间、单字词，这样从开始到结束表示一个词，一个S状态的观测是一个单字词。

观测序列则为中文字符串。

不难发现，中文分词对应于解码问题。而模型参数一般可以是人工标注（状态）来统计得到各种概率，或者通过上面的学习问题来得到，这里不深入阐述，后面再详细介绍。

概率计算

直接计算法

给定模型λ=(A,B,π)和观测序列O={o₁,o₂,...o_T}，计算此观测序列出现的概率P(O|λ)。我们自然而然地想到用全概率公式，也就是将每种可能的状态序列下的观测序列的条件概率相加，其和就是P(O|λ)，假设所有可能的状态序列集合为，则

上式中λ表示给定模型λ的条件下，为避免视觉混淆，可以直接将λ从上式中扣掉，变成，

(1)

其中，P(O|I)表示已知状态序列I的条件下，观测序列O出现的概率，根据上文独立性假设，各观测的出现相互独立，则，

(2)

P(I)表示状态序列的概率，假设状态序列为I={i₁,i₂,...i_T}，根据上文齐次马尔可夫性假设，各状态只依赖于前一状态，则其概率为

(3)

然而，由于状态序列集合的数量非常大，可能的状态数位N，根据排列原理，长度为T的状态序列的数量为N^{^}T，计算量非常大，所以需要寻找更好的方法，上面的直接计算法是将观测序列和状态序列的概率独立计算的，显然如果结合这两种序列，并降低一些重复的计算，达到降低计算量。

前向算法

前向概率

给定隐马尔可夫模型λ，定义到时刻t部分观测序列o₁,...o_t,且状态为i_t=q_i的概率为前向概率，

(4)

显然有，

t=1时，

t=2时，

...

更一般地，t=t时，

(5)

所以目标概率，已知模型λ求观测序列出现的概率为，

(6)

其中T为观测序列的长度。

观察上面的前向概率的结构不难发现，使用前向概率，通过引入状态变量，就可以从上一时刻t-1的观测序列递推出下一时刻t的观测序列出现的概率。

既然有前向算法，那么对称地，就是有后向算法。

后向算法

后向概率

给定隐马尔可夫模型λ，定义在时刻t状态为q_i的条件下，从t+1到T的部分观测序列为o_t+1,o_t+2,...,o_T的概率为后向概率，则

(7)

于是根据上文的两个基本假设有，

t=T-1时（注意t=T时，在此时刻之后已经没有观测序列了，我们先不讨论t=T的情况），

，其中，i为T-1时刻的状态i_T-1，j表示下一时刻T的状态i_T，

t=T-2时，

，其中，i表示T-2时刻的状态i_T-2，j表示下一时刻T-1的状态i_T-1，

更一般地，t=t时，

(8)，其中， i表示t时刻的状态i_t，j表示下一时刻t+1的状态i_t+1

观察上三式，为了计算和表示方法，我们增加

t=T时

这样，t=T-1时也满足(8)式。

向后概率计算的是在上一时刻t假设给定状态i_t，那么在t时刻之后，新的部分观测序列出现的概率，于是可以这么认为，t=T时，总是会出现一个新的部分观测序列（长度为0），其概率为1。这个概率就作为我们计算后向概率的初始值。

现在可以知道，当t=0时，后向概率计算状态为i₀条件下的观测序列o₁,o₂,...,o_T的出现概率，此即我们要求的目标概率

(9)

其中t=0时刻的状态i₀并不是一个实际观测时刻的状态，t=1时刻才是真正开始观测的第一个状态，所以a_0i表示从还没开始观测到开始第一个观测到的状态为i的状态转移概率，其实就是状态i的初始概率π_i

下一篇介绍隐马尔可夫模型三个问题中的第二个问题：学习问题

ref

统计学习方法，李航

代码

可以参考github上JIEBA分词

posted @ 2017-06-07 20:24 gaoshoufenmu 阅读(409) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步