JarvanWang

2018年12月19日

nnet3 TDNN chunk, left-context, right-context

摘要： chunk-width 数据块的宽度 NnetIo name=="input" indexes，left-context+num-frame+right-context=5+7+6=18维 features，18*39=702维 NnetIo name="output" indexes，7维，即chunk-width features，7*2968维，2968为输出层单元数。向量... 阅读全文

posted @ 2018-12-19 20:47 JarvanWang 阅读(744) 评论(0) 推荐(0) 编辑

nnet3配置中的上下文和chunk（块）大小

摘要： Nnet3配置中的上下文和块大小简介本页讨论了nnet3配置中关于解码和训练的块大小以及左右上下文的某些术语。这将有助于理解一些脚本。目前，从脚本角度来看，没有任何关于nnet3的"概述"文档，所以这是nnet3唯一的文档。基础如果您已阅读了"nnet3"配置的以前的文档，您会发现"nnet3"不仅支持简单的前馈DNN，还可以实现在网络内层进行时间拼接（... 阅读全文

posted @ 2018-12-19 20:47 JarvanWang 阅读(4282) 评论(2) 推荐(1) 编辑

Chain训练准则的计算

摘要：第1000轮迭代时验证集的日志： log/compute_prob_valid.1000.log： LOG (nnet3-chain-compute-prob[5.5.100-d66be]:PrintTotalStats():nnet-chain-diagnostics.cc:194) Overall log-probability for 'output-xent' is -2.14... 阅读全文

posted @ 2018-12-19 20:46 JarvanWang 阅读(1016) 评论(0) 推荐(0) 编辑

Factorized TDNN（因子分解TDNN，TDNN-F）

摘要：论文 Povey, D., Cheng, G., Wang, Y., Li, K., Xu, H., Yarmohamadi, M., & Khudanpur, S. (2018). Semi-orthogonal low-rank matrix factorization for deep neural networks. In Proceedings of the 19th Annual Co... 阅读全文

posted @ 2018-12-19 20:42 JarvanWang 阅读(3889) 评论(0) 推荐(0) 编辑

nnet3中的数据类型

摘要：目标与背景之前的nnet1和nnet2基于Component对象，是一个组件的堆栈。每个组件对应一个神经网络层，为简便起见，将一个仿射变换后接一个非线性表示为一层网络，因此每层网络有两个组件。这些旧组件都有Propagate函数以及Backprop函数，两者都以minibatch为单位进行计算，也包含其他函数。 nnet1和nnet2还支持非前馈神经网络，但实现不同。 ... 阅读全文

posted @ 2018-12-19 20:40 JarvanWang 阅读(935) 评论(0) 推荐(0) 编辑

2018年6月7日

steps/align_si.sh

摘要： usage: steps/align_si.sh <data-dir> <lang-dir> <src-dir> <align-dir> e.g.: steps/align_si.sh data/train data/lang exp/tri1 exp/tri1_ali 对特征进行若干变换调整模型阅读全文

posted @ 2018-06-07 20:39 JarvanWang 阅读(1307) 评论(0) 推荐(0) 编辑

steps/train_lda_mllt.sh

摘要： LDA+MLLT指的是在计算MFCC后对特征进行的变换：首先对特征进行扩帧，使用LDA降维（默认降低到40），然后经过多次迭代轮数估计一个对角变换（又称为MLLT或CTC）。详见 http://kaldi-asr.org/doc/transform.html > 阅读全文

posted @ 2018-06-07 20:37 JarvanWang 阅读(1388) 评论(0) 推荐(0) 编辑

steps/train_sat.sh

摘要： > 阅读全文

posted @ 2018-06-07 20:37 JarvanWang 阅读(642) 评论(0) 推荐(0) 编辑

steps/train_mono.sh

摘要： > 定义拓扑结构、参数初始化 $ gmm-init-mono --shared-phones=$lang/phones/sets.int "--train-feats=$feats subset-feats --n=10 ark:- ark:-|" $lang/topo $feat_dim $dir/0.mdl $dir/tree $ wc -w data/lang_test/p... 阅读全文

posted @ 2018-06-07 20:36 JarvanWang 阅读(501) 评论(0) 推荐(0) 编辑

Unsupervised Domain Adaptation Via Domain Adversarial Training For Speaker Recognition

摘要：当评估数据集的领域与训练数据集的领域相似时，用于说话者识别的i-Vector方法取得了良好的性能。但是，在现实应用中，训练数据集和评估数据集之间始终存在不匹配，导致性能下降。为了解决这个问题，本文提出通过领域对抗训练来学习领域不变量和说话人鉴别性语音表征。具体的，在域对抗训练方法中，我们使用梯度反转层去除域变量，并将不同域数据投影到同一子空间中。此外，我们将所提出的方法与其他基于i-Vector的... 阅读全文

posted @ 2018-06-07 20:35 JarvanWang 阅读(648) 评论(0) 推荐(0) 编辑

公告