随笔档案「2017年9月」 - JarvanWang

Kaldi的delta特征

摘要：Delta特征是将mfcc特征(13维)经过差分得到的它是做了一阶二阶的差分提取的mfcc特征是13维的然后通过delta就变成了39维一阶差分： D(P(t))=P(t)-P(t-1) 二阶差分： D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2)) Delta 阅读全文

posted @ 2017-09-09 22:45 JarvanWang 阅读(3053) 评论(3) 推荐(0)

Kaldi的交叉熵正则化

摘要：xent_regularize, Cross Entropy Regularize nnet3/nnet-discriminative-trainning.cc:109 void NnetDiscriminativeTrainer::ProcessOutputs() 交叉熵正则化，即帧平滑《解读深阅读全文

posted @ 2017-09-09 22:45 JarvanWang 阅读(1327) 评论(0) 推荐(0)

Kaldi语料的两种切分/组织方式及其处理

摘要：text中每一个文本段由一个音频索引（indexed by utterance）使用该方式的egs：librispeech、timit、thchs30、atc_en、atc_cn 语料的组织形式为：一个音频（包含一个语句）对应一个文本（包含一个文本段）或一个音频（包含一个语句）对应一个文本（阅读全文

posted @ 2017-09-09 22:44 JarvanWang 阅读(2150) 评论(0) 推荐(0)

调用kaldi的模型进行解码

摘要：At the moment Kaldi is targeted more at people who are building ASR systems than those who just want to use them. We may in future cater to needs such 阅读全文

posted @ 2017-09-09 22:43 JarvanWang 阅读(2223) 评论(0) 推荐(0)

Kaldi的nnet2 Component

摘要：FixedAffineComponent：类 LDA-like 的非相关转换，由标准的 weight matrix plus bias 组成（即Wx+b），通过标准的 stochastic gradient descent（非minibatch SGD？）训练而来，使用 global learni 阅读全文

posted @ 2017-09-09 22:42 JarvanWang 阅读(1265) 评论(0) 推荐(0)

Kaldi的BaseLine训练过程

摘要：steps/train_mono.sh --nj "$train_nj" --cmd "$train_cmd" data/train data/lang exp/mono || exit 1 data lang dir # 使用差分特征训练GMM模型 # 因为每一步训练的模型都会导致状态的均值发生变阅读全文

posted @ 2017-09-09 22:41 JarvanWang 阅读(1431) 评论(0) 推荐(0)

Kaldi的data目录解析

摘要：data/test # things in data/*test* and data/*train* cmvn.scp # Start point of every audio feature at ark file(binary) after CMVN(Cepstral Mean and Vari 阅读全文

posted @ 2017-09-09 22:41 JarvanWang 阅读(628) 评论(0) 推荐(0)

Kaldi的nnet3

摘要：Nnet3配置中的上下文和块大小简介本页讨论了nnet3配置中关于解码和训练的块大小以及左右上下文的某些术语。这将有助于理解一些脚本。目前，从脚本角度来看，没有任何关于nnet3的"概述"文档，所以这是nnet3唯一的文档。基础如果您已阅读了"nnet3"配置的以前的文档，您会发现"nnet 阅读全文

posted @ 2017-09-09 22:40 JarvanWang 阅读(6417) 评论(0) 推荐(0)

Kaldi中的Chain模型

摘要：Chain模型的训练流程链式模型的训练过程是MMI的无网格的版本，从音素级解码图生成HMM，对其使用前向后向算法，获得分母状态后验，通过类似的方式计算分子状态后验，但限于对应于转录的序列。对于神经网络的每个输出索引（即对于每个pdf-id），我们计算（分子占有概率 - 分母占用概率）的导数，并将阅读全文

posted @ 2017-09-09 22:40 JarvanWang 阅读(11285) 评论(1) 推荐(2)

Dan版本的nnet2

摘要：除了chain，nnet1, nnet2, nnet3训练时调整转移模型，chain模型使用类似与MMI的训练准则 Dan's setup does not uses pre-training. Dan's setup uses a fixed number of epochs and averag 阅读全文

posted @ 2017-09-09 22:39 JarvanWang 阅读(1133) 评论(0) 推荐(0)

Karel版本的nnet1

摘要：除了chain，nnet1, nnet2, nnet3训练时调整转移模型，chain模型使用类似与MMI的训练准则概要 Karel Vesely的nnet1用到以下技术：每一层进行预训练，基于RBMs（受限玻尔滋蔓机）以一帧为单位进行交叉熵训练序列-辨别性训练，用了lattice框架，以sM 阅读全文

posted @ 2017-09-09 22:39 JarvanWang 阅读(4218) 评论(0) 推荐(0)

MFCC/Filter Bank的提取流程

摘要：加窗：采用汉明窗对一帧语音加窗，以减小吉布斯效应的影响。 Delta差分：大量实验表明，在语音特征中加入表征语音动态特性的差分参数，能够提高系统的识别性能。在本系统中，我们也用到了MFCC参数的一阶差分参数(Delta-Delta)和二阶差分参数(Delta-Delta+Delta)。阅读全文

posted @ 2017-09-09 22:38 JarvanWang 阅读(4173) 评论(0) 推荐(0)

训练与解码

摘要：BW算法是对某一个HMM(一个音素)进行训练，需要该HMM对应的观察向量(一段音频)，如何让一段文本中的某个音素找到对应一整段音频中的一小段音频？需要用到对齐来找到所有的[音素-音频]的配对。训练时也需要解码 1，设训练的一句话有n个音素，即n个HMM，即3n个状态。将这句话对应的音频平均地切分为阅读全文

posted @ 2017-09-09 22:37 JarvanWang 阅读(509) 评论(0) 推荐(0)

决策树的概念及其训练

摘要：http://blog.csdn.net/u010731824/article/details/69668647 http://blog.csdn.net/u010731824/article/details/69667017 Tree-Based State Tying For High Accu 阅读全文

posted @ 2017-09-09 22:35 JarvanWang 阅读(1236) 评论(0) 推荐(0)

Embedded training，嵌入式训练

摘要：一旦初始的模型集被创建后， HERest使用整个训练集来执行"嵌入式训练（embedded training）"，HERest将对全部HMM音素集模型执行一次Baum-Welch，同时重估这些模型的参数。对于每条训练语句，此训练数据包含的相应的音素模型(HMM)将会被连接起来(形成一个大HMM)。前阅读全文

posted @ 2017-09-09 22:35 JarvanWang 阅读(751) 评论(0) 推荐(0)

三音素

摘要：三音素，音素的一种，与单音素（如t, iy, n）不同，三音素表示为如t-iy+n，即由三个单音素组成，与单音素iy类似，但其考虑了上下文的关系，即，上文为t，下文为n。三音素和单音素都是一个隐马尔科夫模型（HMM）三音素是为了考虑上下文的信息(协同发音) 倒谱特征提取时，汉宁窗向左、向右包含了阅读全文

posted @ 2017-09-09 22:34 JarvanWang 阅读(4149) 评论(0) 推荐(0)

DNN-HMM

摘要：<<DNN-HMM.docx>> 阅读全文

posted @ 2017-09-09 22:33 JarvanWang 阅读(1287) 评论(0) 推荐(1)

Viterbi

摘要：把语音分割为计算发音质量测度所需要的小单元时候，需要进行Viterbi对齐 Viterbi，在htk和sphinx中，也被称作token passing model Viterbi解码图是状态数Sm(所有状态)*时间长度(帧长度)On大小 Viterbi是对一个非常大的HMM(多个音素HMM的组合阅读全文

posted @ 2017-09-09 22:32 JarvanWang 阅读(1505) 评论(0) 推荐(0)

Lattice

摘要：Lattice是一个无环WFSA，结点可以是hmm状态、hmm(音素)、词，每个结点是一段音频在某个时间的对齐用训练好的声学模型、现成的语言模型和发音字典构建解码网络(wfst)，最后将提取的测试集的语音特征输入以上解码网络，得到网格结构(lattice)的语音识别结果。 Lattice可用于语言阅读全文

posted @ 2017-09-09 22:31 JarvanWang 阅读(5557) 评论(0) 推荐(1)

MLE

posted @ 2017-09-09 22:30 JarvanWang 阅读(449) 评论(0) 推荐(0)

JarvanWang

09 2017 档案

公告