语音识别(3)HMM

1HMM基础

一模型、两假设、三问题

1)一个模型

随机过程:是依赖于参数的一组随机变量的全体,参数通常是时间。随机变量是随机现象的数量表现,其取值随着偶然因素的影响而改变。

例如,某商店在从时间t0到时间tK这段时间内接待顾客的人数,就是依赖于时间t的一组随机变量,即随机过程。

马尔科夫过程:随机过程的一类,系统下一时刻的状态仅与单前状态有关。

隐马尔科夫模型(HMM):用来描述一个含有未知参数的马尔科夫过程。

隐马尔可夫模型是关于时间序列的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态序列 (state sequence),再由各个状态生成一个 观测而产生观测序列 (observation sequence)的过程,序列的每一个位置又可以看作是一个时刻。

2)两个基本假设

齐次马尔可夫性假设:隐藏的马尔可夫链在时刻t的状态只和t-1的状态有关。

 

观测独立性假设:观测只和当前时刻的状态有关。

 

3)三大问题

1) 概率计算问题。即给定模型λ=(A,B,Π)λ=(A,B,Π)和观测序列O={o1,o2,...oT}O={o1,o2,...oT},计算在模型λ下观测序列O出现的概率P(O|λ)。这个问题的求解需要用到前向算法、后向算法和直接计算法。

2)解码问题。即给定模型λ=(A,B,Π)和观测序列O={o1,o2,...oT},求给定观测序列条件下,最可能出现的对应的状态序列,这个问题的求解需要用到基于动态规划的Viterbi算法。

3)模学习问题。即给定观测序列O={o1,o2,...oT},估计模型λ=(A,B,Π)的参数,使该模型下观测序列的条件概率P(O|λ)最大。这个问题的求解需要用到基于EM算法的Baum-Welch算法。

2 HMM的隐状态

隐状态、箱子、第K个高斯

隐藏状态是抽象出来的概念,由于语音信号在一个长时间断内是非平稳信号,而在一个较短的时间内则可近似看做平稳的(比如50毫秒)。平稳信号的特点在于信号的频谱分布是稳定的,不同时间段的频谱分布相似。隐马尔可夫模型将一小段频谱相似的连续信号归为一个隐状态。Viterbi算法对齐就是为了找到哪些帧归于哪个隐状态,隐马尔可夫模型的训练过程是最大化似然度,每一个状态产生的数据用一个概率分布表示。只有当相似的连续信号尽可能被归为同一个状态,似然度才能尽可能的大

类比箱子和小球,手从哪个箱子拿的球不知道,只知道拿出来后看见的小球,问小球来自哪个箱子的可能。其中,箱子就是隐状态,小球就是可观测的。箱子中有不同小球的比例,或者分布,而HMM中也有隐状态对应到特征向量的概率分布。假如箱子中小球分布符合高斯分布,假设HMM中隐状态中特征符合高斯分布,GMM混合高斯模型就是在模拟这个分布,理解性的表达可以说模拟隐状态中可观测特征的比例。只不过一个箱子中三个小球比列为3:2:1,而HMM一个隐状态中有39种特征,也是有占比。

GMM中也有隐状态,特征向量不知道来自哪个Gaussion。K1、K2、K3组成一个GMM,K1、K2、K3类比箱子1、箱子2、箱子3,类比HMM中状态1、状态2、状态3。

3 概率计算问题

前向算法、后向算法、Viterbi

概率计算问题(评估问题、序列分类问题、求可观测问题):

即给定模型λ=(A,B,Π)λ=(A,B,Π)和观测序列O={o1,o2,...oT}O={o1,o2,...oT},计算在模型λ下观测序列O出现的概率P(O|λ)。

1)直接法(不用)

 

 

2)前向算法

 

 

 

前向算法实现:

 

 

3)后向算法

 

后向算法实现:

 

4)Viterbi算法(近似)

可以回溯到最优的状态序列,求最优路径的概率代替所有路径的概率和P(O|λ)。

灵魂的拷问:这样计算最优路径的概率代替所有路径概率和P(O|λ),是不是不准了呢?又为什么能代替呢?

AI大语音:在实际语音识别中,是可以代替的。因为概率的分布比较尖,也就是某个位置的概率会非常大,其他比较小,最优路径的概率跟所有路径的概率差不多。那条最优路径的概率就如同战场上的将军、游戏里的大boss,战力已经接近总战力了,所有和所有路径的概率和很接近。

 

既然可以近似,那两种算法的概率应该差不多大才是。对比一下程序中前向算法和Viterbis算法求出来的概率。

 

灵魂的拷问:一个0.13级别、一个0.014级别的,这也叫差不大嘛?都差一个数量级了。

AI大语音:转移矩阵、发射矩阵中的概率差别不是特别大的时候是不能用来近似的,程序中的例子不具有代表性,不是类似语音识别的例子,在大多数语音识别应用中求出来两者的概率才会差不多,才能近似代替。

4 解码问题

Viterbi算法、近似算法

解码问题(对齐问题、预测问题、序列标注问题、求隐状态问题)

即给定模型λ=(A,B,Π)和观测序列O={o1,o2,...oT},求给定观测序列条件下,最可能出现的对应的状态序列,这个问题的求解需要用到基于动态规划的Viterbi算法。

Viterbi算法是最优路径算法的一种。最优路径算法:

穷举法

方法:把所有可能路径都计算一遍,最优路径自然就出来了。

优点:必然能找到最优路径。

缺点:计算量太大。

A*算法

方法:每一步只走最好走的路(目光短浅)

优点:计算快,而且这种贪心或者说启发式的算法,通常情况下,效果还是不错的。

缺点:很难找到最优解,陷入局部最优

beam search (波束搜索)

方法:每一步只走最好走的前N条路。这里的N也叫Beam Width。是A*算法的改进,当N=1时,退化为A*算法,当N=N时,退化为穷举法。

 

优点:N设置良好的话效果不错。

缺点:Beam Width越大,找到最优解的概率越大,相应的计算复杂度也越大。

1) Viterbi算法

方法:记录每个时刻的每个可能状态的之前最优路径的概率,同时记录最优路径的前一个状态,不断向后迭代,找到最后一个时间点的最大概率值对应的状态,回溯找到最优路径。

 

注意:Viterbi算法前向时只是计算概率,并记住,后向回溯时才得到最优路径。

 

 

 

 

 

算法实现:

 

2) 近似算法(不常用)

 

近似算法是前向计算时最大的就选了这个路径,也就是单步最大的路径组合成最优路径;而Viterbi是前向只计算并记住,根据最后最大的那个概率回溯选择路径。

5 学习问题

Viterbi学习算法、Baum-Welch算法

学习问题(训练问题、参数估计、求模型问题)

即给定观测序列O={o1,o2,...oT},估计模型λ=(A,B,Π)的参数,使该模型下观测序列的条件概率P(O|λ)最大。这个问题的求解需要用到基于EM算法的Baum-Welch学习算法和Viterbi学习算法。

 

1)Viterbi学习算法(硬对齐)

Viterbi算法需要先初始化一个HMM模型λ=(A,B,Π)。

 

 

 

 

在语音识别应用中由于HMM是从左到右的模型,第一个必然是状态一,即P(q0=1)=1。所以没有pi这个参数了。

 

1)Baum-Welch学习算法(软对齐)

 

同样,在语音识别应用中没有pi。

 

附录(魔鬼写手)

 

 

 

 

 

 

 

 

 

 

 

——————
————————————————
版权声明:本文为CSDN博主「AI大道理」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_42734492/article/details/108114821

posted @ 2022-05-19 12:18  啊诚  阅读(422)  评论(0编辑  收藏  举报