09 2017 档案

摘要:Delta特征是将mfcc特征(13维)经过差分得到的 它是做了一阶二阶的差分 提取的mfcc特征是13维的 然后通过delta就变成了39维 一阶差分: D(P(t))=P(t)-P(t-1) 二阶差分: D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2)) Delta 阅读全文
posted @ 2017-09-09 22:45 JarvanWang 阅读(3053) 评论(3) 推荐(0)
摘要:xent_regularize, Cross Entropy Regularize nnet3/nnet-discriminative-trainning.cc:109 void NnetDiscriminativeTrainer::ProcessOutputs() 交叉熵正则化,即帧平滑 《解读深 阅读全文
posted @ 2017-09-09 22:45 JarvanWang 阅读(1327) 评论(0) 推荐(0)
摘要:text中每一个文本段由一个音频索引(indexed by utterance) 使用该方式的egs:librispeech、timit、thchs30、atc_en、atc_cn 语料的组织形式为: 一个音频(包含一个语句)对应一个文本(包含一个文本段) 或 一个音频(包含一个语句)对应一个文本( 阅读全文
posted @ 2017-09-09 22:44 JarvanWang 阅读(2150) 评论(0) 推荐(0)
摘要:At the moment Kaldi is targeted more at people who are building ASR systems than those who just want to use them. We may in future cater to needs such 阅读全文
posted @ 2017-09-09 22:43 JarvanWang 阅读(2223) 评论(0) 推荐(0)
摘要:FixedAffineComponent:类 LDA-like 的非相关转换,由标准的 weight matrix plus bias 组成(即Wx+b),通过标准的 stochastic gradient descent(非minibatch SGD?) 训练而来,使用 global learni 阅读全文
posted @ 2017-09-09 22:42 JarvanWang 阅读(1265) 评论(0) 推荐(0)
摘要:steps/train_mono.sh --nj "$train_nj" --cmd "$train_cmd" data/train data/lang exp/mono || exit 1 data lang dir # 使用差分特征训练GMM模型 # 因为每一步训练的模型都会导致状态的均值发生变 阅读全文
posted @ 2017-09-09 22:41 JarvanWang 阅读(1431) 评论(0) 推荐(0)
摘要:data/test # things in data/*test* and data/*train* cmvn.scp # Start point of every audio feature at ark file(binary) after CMVN(Cepstral Mean and Vari 阅读全文
posted @ 2017-09-09 22:41 JarvanWang 阅读(628) 评论(0) 推荐(0)
摘要:Nnet3配置中的上下文和块大小 简介 本页讨论了nnet3配置中关于解码和训练的块大小以及左右上下文的某些术语。这将有助于理解一些脚本。目前,从脚本角度来看,没有任何关于nnet3的"概述"文档,所以这是nnet3唯一的文档。 基础 如果您已阅读了"nnet3"配置的以前的文档,您会发现"nnet 阅读全文
posted @ 2017-09-09 22:40 JarvanWang 阅读(6417) 评论(0) 推荐(0)
摘要:Chain模型的训练流程 链式模型的训练过程是MMI的无网格的版本,从音素级解码图生成HMM,对其使用前向后向算法,获得分母状态后验,通过类似的方式计算分子状态后验,但限于对应于转录的序列。 对于神经网络的每个输出索引(即对于每个pdf-id),我们计算(分子占有概率 - 分母占用概率)的导数,并将 阅读全文
posted @ 2017-09-09 22:40 JarvanWang 阅读(11285) 评论(1) 推荐(2)
摘要:除了chain,nnet1, nnet2, nnet3训练时调整转移模型,chain模型使用类似与MMI的训练准则 Dan's setup does not uses pre-training. Dan's setup uses a fixed number of epochs and averag 阅读全文
posted @ 2017-09-09 22:39 JarvanWang 阅读(1133) 评论(0) 推荐(0)
摘要:除了chain,nnet1, nnet2, nnet3训练时调整转移模型,chain模型使用类似与MMI的训练准则 概要 Karel Vesely的nnet1用到以下技术: 每一层进行预训练,基于RBMs(受限玻尔滋蔓机) 以一帧为单位进行交叉熵训练 序列-辨别性训练,用了lattice框架,以sM 阅读全文
posted @ 2017-09-09 22:39 JarvanWang 阅读(4218) 评论(0) 推荐(0)
摘要:加窗:采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响。 Delta差分:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了MFCC参数的一阶差分参数(Delta-Delta)和二阶差分参数(Delta-Delta+Delta)。 阅读全文
posted @ 2017-09-09 22:38 JarvanWang 阅读(4173) 评论(0) 推荐(0)
摘要:BW算法是对某一个HMM(一个音素)进行训练,需要该HMM对应的观察向量(一段音频),如何让一段文本中的某个音素找到对应一整段音频中的一小段音频?需要用到对齐来找到所有的[音素-音频]的配对。 训练时也需要解码 1,设训练的一句话有n个音素,即n个HMM,即3n个状态。将这句话对应的音频平均地切分为 阅读全文
posted @ 2017-09-09 22:37 JarvanWang 阅读(509) 评论(0) 推荐(0)
摘要:http://blog.csdn.net/u010731824/article/details/69668647 http://blog.csdn.net/u010731824/article/details/69667017 Tree-Based State Tying For High Accu 阅读全文
posted @ 2017-09-09 22:35 JarvanWang 阅读(1236) 评论(0) 推荐(0)
摘要:一旦初始的模型集被创建后, HERest使用整个训练集来执行"嵌入式训练(embedded training)",HERest将对全部HMM音素集模型执行一次Baum-Welch,同时重估这些模型的参数。对于每条训练语句,此训练数据包含的相应的音素模型(HMM)将会被连接起来(形成一个大HMM)。前 阅读全文
posted @ 2017-09-09 22:35 JarvanWang 阅读(751) 评论(0) 推荐(0)
摘要:三音素,音素的一种,与单音素(如t, iy, n)不同,三音素表示为如t-iy+n,即由三个单音素组成,与单音素iy类似,但其考虑了上下文的关系,即,上文为t,下文为n。 三音素和单音素都是一个隐马尔科夫模型(HMM) 三音素是为了考虑上下文的信息(协同发音) 倒谱特征提取时,汉宁窗向左、向右包含了 阅读全文
posted @ 2017-09-09 22:34 JarvanWang 阅读(4149) 评论(0) 推荐(0)
摘要:<<DNN-HMM.docx>> 阅读全文
posted @ 2017-09-09 22:33 JarvanWang 阅读(1287) 评论(0) 推荐(1)
摘要:把语音分割为计算发音质量测度所需要的小单元时候,需要进行Viterbi对齐 Viterbi,在htk和sphinx中,也被称作token passing model Viterbi解码图是 状态数Sm(所有状态)*时间长度(帧长度)On大小 Viterbi是对一个非常大的HMM(多个音素HMM的组合 阅读全文
posted @ 2017-09-09 22:32 JarvanWang 阅读(1505) 评论(0) 推荐(0)
摘要:Lattice是一个无环WFSA,结点可以是hmm状态、hmm(音素)、词,每个结点是一段音频在某个时间的对齐 用训练好的声学模型、现成的语言模型和发音字典构建解码网络(wfst),最后将提取的测试集的语音特征输入以上解码网络,得到网格结构(lattice)的语音识别结果。 Lattice可用于语言 阅读全文
posted @ 2017-09-09 22:31 JarvanWang 阅读(5557) 评论(0) 推荐(1)
摘要:独立同分布的采样x1,x2,…,xn,θ为模型参数,f为我们所使用的模型。参数为θ的模型f产生上述采样可表示为 f(x1,x2,…,xn|θ)=πf(xi|θ) 已知的为x1,x2,…,xn,未知为θ,故似然定义为:L(θ|x1,x2,…,xn)=f(x1,x2,…,xn|θ)=πf(xi|θ) 常 阅读全文
posted @ 2017-09-09 22:30 JarvanWang 阅读(449) 评论(0) 推荐(0)