JarvanWang

2017年9月9日

摘要： BW算法是对某一个HMM(一个音素)进行训练，需要该HMM对应的观察向量(一段音频)，如何让一段文本中的某个音素找到对应一整段音频中的一小段音频？需要用到对齐来找到所有的[音素-音频]的配对。训练时也需要解码 1，设训练的一句话有n个音素，即n个HMM，即3n个状态。将这句话对应的音频平均地切分为阅读全文

posted @ 2017-09-09 22:37 JarvanWang 阅读(491) 评论(0) 推荐(0) 编辑

决策树的概念及其训练

摘要： http://blog.csdn.net/u010731824/article/details/69668647 http://blog.csdn.net/u010731824/article/details/69667017 Tree-Based State Tying For High Accu 阅读全文

posted @ 2017-09-09 22:35 JarvanWang 阅读(1202) 评论(0) 推荐(0) 编辑

Embedded training，嵌入式训练

摘要：一旦初始的模型集被创建后， HERest使用整个训练集来执行"嵌入式训练（embedded training）"，HERest将对全部HMM音素集模型执行一次Baum-Welch，同时重估这些模型的参数。对于每条训练语句，此训练数据包含的相应的音素模型(HMM)将会被连接起来(形成一个大HMM)。前阅读全文

posted @ 2017-09-09 22:35 JarvanWang 阅读(701) 评论(0) 推荐(0) 编辑

三音素

摘要：三音素，音素的一种，与单音素（如t, iy, n）不同，三音素表示为如t-iy+n，即由三个单音素组成，与单音素iy类似，但其考虑了上下文的关系，即，上文为t，下文为n。三音素和单音素都是一个隐马尔科夫模型（HMM）三音素是为了考虑上下文的信息(协同发音) 倒谱特征提取时，汉宁窗向左、向右包含了阅读全文

posted @ 2017-09-09 22:34 JarvanWang 阅读(4026) 评论(0) 推荐(0) 编辑

DNN-HMM

摘要： <<DNN-HMM.docx>> 阅读全文

posted @ 2017-09-09 22:33 JarvanWang 阅读(1268) 评论(0) 推荐(1) 编辑

Viterbi

摘要：把语音分割为计算发音质量测度所需要的小单元时候，需要进行Viterbi对齐 Viterbi，在htk和sphinx中，也被称作token passing model Viterbi解码图是状态数Sm(所有状态)*时间长度(帧长度)On大小 Viterbi是对一个非常大的HMM(多个音素HMM的组合阅读全文

posted @ 2017-09-09 22:32 JarvanWang 阅读(1454) 评论(0) 推荐(0) 编辑

Lattice

摘要： Lattice是一个无环WFSA，结点可以是hmm状态、hmm(音素)、词，每个结点是一段音频在某个时间的对齐用训练好的声学模型、现成的语言模型和发音字典构建解码网络(wfst)，最后将提取的测试集的语音特征输入以上解码网络，得到网格结构(lattice)的语音识别结果。 Lattice可用于语言阅读全文

posted @ 2017-09-09 22:31 JarvanWang 阅读(5443) 评论(0) 推荐(1) 编辑

MLE

posted @ 2017-09-09 22:30 JarvanWang 阅读(417) 评论(0) 推荐(0) 编辑

公告