JarvanWang

2017年9月9日

摘要： text中每一个文本段由一个音频索引（indexed by utterance）使用该方式的egs：librispeech、timit、thchs30、atc_en、atc_cn 语料的组织形式为：一个音频（包含一个语句）对应一个文本（包含一个文本段）或一个音频（包含一个语句）对应一个文本（阅读全文

posted @ 2017-09-09 22:44 JarvanWang 阅读(2082) 评论(0) 推荐(0) 编辑

调用kaldi的模型进行解码

摘要： At the moment Kaldi is targeted more at people who are building ASR systems than those who just want to use them. We may in future cater to needs such 阅读全文

posted @ 2017-09-09 22:43 JarvanWang 阅读(2191) 评论(0) 推荐(0) 编辑

Kaldi的nnet2 Component

摘要： FixedAffineComponent：类 LDA-like 的非相关转换，由标准的 weight matrix plus bias 组成（即Wx+b），通过标准的 stochastic gradient descent（非minibatch SGD？）训练而来，使用 global learni 阅读全文

posted @ 2017-09-09 22:42 JarvanWang 阅读(1241) 评论(0) 推荐(0) 编辑

Kaldi的BaseLine训练过程

摘要： steps/train_mono.sh --nj "$train_nj" --cmd "$train_cmd" data/train data/lang exp/mono || exit 1 data lang dir # 使用差分特征训练GMM模型 # 因为每一步训练的模型都会导致状态的均值发生变阅读全文

posted @ 2017-09-09 22:41 JarvanWang 阅读(1368) 评论(0) 推荐(0) 编辑

Kaldi的data目录解析

摘要： data/test # things in data/*test* and data/*train* cmvn.scp # Start point of every audio feature at ark file(binary) after CMVN(Cepstral Mean and Vari 阅读全文

posted @ 2017-09-09 22:41 JarvanWang 阅读(608) 评论(0) 推荐(0) 编辑

Kaldi的nnet3

摘要： Nnet3配置中的上下文和块大小简介本页讨论了nnet3配置中关于解码和训练的块大小以及左右上下文的某些术语。这将有助于理解一些脚本。目前，从脚本角度来看，没有任何关于nnet3的"概述"文档，所以这是nnet3唯一的文档。基础如果您已阅读了"nnet3"配置的以前的文档，您会发现"nnet 阅读全文

posted @ 2017-09-09 22:40 JarvanWang 阅读(6370) 评论(0) 推荐(0) 编辑

Kaldi中的Chain模型

摘要： Chain模型的训练流程链式模型的训练过程是MMI的无网格的版本，从音素级解码图生成HMM，对其使用前向后向算法，获得分母状态后验，通过类似的方式计算分子状态后验，但限于对应于转录的序列。对于神经网络的每个输出索引（即对于每个pdf-id），我们计算（分子占有概率 - 分母占用概率）的导数，并将阅读全文

posted @ 2017-09-09 22:40 JarvanWang 阅读(11132) 评论(1) 推荐(2) 编辑

Dan版本的nnet2

摘要：除了chain，nnet1, nnet2, nnet3训练时调整转移模型，chain模型使用类似与MMI的训练准则 Dan's setup does not uses pre-training. Dan's setup uses a fixed number of epochs and averag 阅读全文

posted @ 2017-09-09 22:39 JarvanWang 阅读(1069) 评论(0) 推荐(0) 编辑

Karel版本的nnet1

摘要：除了chain，nnet1, nnet2, nnet3训练时调整转移模型，chain模型使用类似与MMI的训练准则概要 Karel Vesely的nnet1用到以下技术：每一层进行预训练，基于RBMs（受限玻尔滋蔓机）以一帧为单位进行交叉熵训练序列-辨别性训练，用了lattice框架，以sM 阅读全文

posted @ 2017-09-09 22:39 JarvanWang 阅读(3989) 评论(0) 推荐(0) 编辑

MFCC/Filter Bank的提取流程

摘要：加窗：采用汉明窗对一帧语音加窗，以减小吉布斯效应的影响。 Delta差分：大量实验表明，在语音特征中加入表征语音动态特性的差分参数，能够提高系统的识别性能。在本系统中，我们也用到了MFCC参数的一阶差分参数(Delta-Delta)和二阶差分参数(Delta-Delta+Delta)。阅读全文

posted @ 2017-09-09 22:38 JarvanWang 阅读(3893) 评论(0) 推荐(0) 编辑

公告