上一页 1 ··· 4 5 6 7 8
摘要: BW算法是对某一个HMM(一个音素)进行训练,需要该HMM对应的观察向量(一段音频),如何让一段文本中的某个音素找到对应一整段音频中的一小段音频?需要用到对齐来找到所有的[音素-音频]的配对。 训练时也需要解码 1,设训练的一句话有n个音素,即n个HMM,即3n个状态。将这句话对应的音频平均地切分为 阅读全文
posted @ 2017-09-09 22:37 JarvanWang 阅读(491) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/u010731824/article/details/69668647 http://blog.csdn.net/u010731824/article/details/69667017 Tree-Based State Tying For High Accu 阅读全文
posted @ 2017-09-09 22:35 JarvanWang 阅读(1202) 评论(0) 推荐(0) 编辑
摘要: 一旦初始的模型集被创建后, HERest使用整个训练集来执行"嵌入式训练(embedded training)",HERest将对全部HMM音素集模型执行一次Baum-Welch,同时重估这些模型的参数。对于每条训练语句,此训练数据包含的相应的音素模型(HMM)将会被连接起来(形成一个大HMM)。前 阅读全文
posted @ 2017-09-09 22:35 JarvanWang 阅读(701) 评论(0) 推荐(0) 编辑
摘要: 三音素,音素的一种,与单音素(如t, iy, n)不同,三音素表示为如t-iy+n,即由三个单音素组成,与单音素iy类似,但其考虑了上下文的关系,即,上文为t,下文为n。 三音素和单音素都是一个隐马尔科夫模型(HMM) 三音素是为了考虑上下文的信息(协同发音) 倒谱特征提取时,汉宁窗向左、向右包含了 阅读全文
posted @ 2017-09-09 22:34 JarvanWang 阅读(4026) 评论(0) 推荐(0) 编辑
摘要: <<DNN-HMM.docx>> 阅读全文
posted @ 2017-09-09 22:33 JarvanWang 阅读(1268) 评论(0) 推荐(1) 编辑
摘要: 把语音分割为计算发音质量测度所需要的小单元时候,需要进行Viterbi对齐 Viterbi,在htk和sphinx中,也被称作token passing model Viterbi解码图是 状态数Sm(所有状态)*时间长度(帧长度)On大小 Viterbi是对一个非常大的HMM(多个音素HMM的组合 阅读全文
posted @ 2017-09-09 22:32 JarvanWang 阅读(1454) 评论(0) 推荐(0) 编辑
摘要: Lattice是一个无环WFSA,结点可以是hmm状态、hmm(音素)、词,每个结点是一段音频在某个时间的对齐 用训练好的声学模型、现成的语言模型和发音字典构建解码网络(wfst),最后将提取的测试集的语音特征输入以上解码网络,得到网格结构(lattice)的语音识别结果。 Lattice可用于语言 阅读全文
posted @ 2017-09-09 22:31 JarvanWang 阅读(5443) 评论(0) 推荐(1) 编辑
摘要: 独立同分布的采样x1,x2,…,xn,θ为模型参数,f为我们所使用的模型。参数为θ的模型f产生上述采样可表示为 f(x1,x2,…,xn|θ)=πf(xi|θ) 已知的为x1,x2,…,xn,未知为θ,故似然定义为:L(θ|x1,x2,…,xn)=f(x1,x2,…,xn|θ)=πf(xi|θ) 常 阅读全文
posted @ 2017-09-09 22:30 JarvanWang 阅读(417) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8