摘要: chunk-width 数据块的宽度 NnetIo name=="input" indexes,left-context+num-frame+right-context=5+7+6=18维 features,18*39=702维 NnetIo name="output" indexes,7维,即chunk-width features,7*2968维,2968为输出层单元数。向量... 阅读全文
posted @ 2018-12-19 20:47 JarvanWang 阅读(744) 评论(0) 推荐(0) 编辑
摘要: Nnet3配置中的上下文和块大小 简介 本页讨论了nnet3配置中关于解码和训练的块大小以及左右上下文的某些术语。这将有助于理解一些脚本。目前,从脚本角度来看,没有任何关于nnet3的"概述"文档,所以这是nnet3唯一的文档。 基础 如果您已阅读了"nnet3"配置的以前的文档,您会发现"nnet3"不仅支持简单的前馈DNN,还可以实现在网络内层进行时间拼接(... 阅读全文
posted @ 2018-12-19 20:47 JarvanWang 阅读(4282) 评论(2) 推荐(1) 编辑
摘要: 第1000轮迭代时验证集的日志: log/compute_prob_valid.1000.log: LOG (nnet3-chain-compute-prob[5.5.100-d66be]:PrintTotalStats():nnet-chain-diagnostics.cc:194) Overall log-probability for 'output-xent' is -2.14... 阅读全文
posted @ 2018-12-19 20:46 JarvanWang 阅读(1016) 评论(0) 推荐(0) 编辑
摘要: 论文 Povey, D., Cheng, G., Wang, Y., Li, K., Xu, H., Yarmohamadi, M., & Khudanpur, S. (2018). Semi-orthogonal low-rank matrix factorization for deep neural networks. In Proceedings of the 19th Annual Co... 阅读全文
posted @ 2018-12-19 20:42 JarvanWang 阅读(3889) 评论(0) 推荐(0) 编辑
摘要: 目标与背景 之前的nnet1和nnet2基于Component对象,是一个组件的堆栈。每个组件对应一个神经网络层,为简便起见,将一个仿射变换后接一个非线性表示为一层网络,因此每层网络有两个组件。这些旧组件都有Propagate函数以及Backprop函数,两者都以minibatch为单位进行计算,​​也包含其他函数。 nnet1和nnet2还支持非前馈神经网络,但实现不同。 ... 阅读全文
posted @ 2018-12-19 20:40 JarvanWang 阅读(935) 评论(0) 推荐(0) 编辑
摘要: usage: steps/align_si.sh <data-dir> <lang-dir> <src-dir> <align-dir> e.g.: steps/align_si.sh data/train data/lang exp/tri1 exp/tri1_ali 对特征进行若干变换 调整模型 阅读全文
posted @ 2018-06-07 20:39 JarvanWang 阅读(1307) 评论(0) 推荐(0) 编辑
摘要: LDA+MLLT指的是在计算MFCC后对特征进行的变换:首先对特征进行扩帧,使用LDA降维(默认降低到40),然后经过多次迭代轮数估计一个对角变换(又称为MLLT或CTC) 。详见 http://kaldi-asr.org/doc/transform.html > 阅读全文
posted @ 2018-06-07 20:37 JarvanWang 阅读(1388) 评论(0) 推荐(0) 编辑
摘要: > 阅读全文
posted @ 2018-06-07 20:37 JarvanWang 阅读(642) 评论(0) 推荐(0) 编辑
摘要: > 定义拓扑结构、参数初始化 $ gmm-init-mono --shared-phones=$lang/phones/sets.int "--train-feats=$feats subset-feats --n=10 ark:- ark:-|" $lang/topo $feat_dim $dir/0.mdl $dir/tree $ wc -w data/lang_test/p... 阅读全文
posted @ 2018-06-07 20:36 JarvanWang 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 当评估数据集的领域与训练数据集的领域相似时,用于说话者识别的i-Vector方法取得了良好的性能。但是,在现实应用中,训练数据集和评估数据集之间始终存在不匹配,导致性能下降。为了解决这个问题,本文提出通过领域对抗训练来学习领域不变量和说话人鉴别性语音表征。具体的,在域对抗训练方法中,我们使用梯度反转层去除域变量,并将不同域数据投影到同一子空间中。此外,我们将所提出的方法与其他基于i-Vector的... 阅读全文
posted @ 2018-06-07 20:35 JarvanWang 阅读(648) 评论(0) 推荐(0) 编辑