摘要: #!/bin/bash # Copyright 2018 Jarvan Wang Apache 2.0. # Copyright 2016 Xiaohui Zhang Apache 2.0. # This srcipt operates on lattice directories, such as exp/tri4a_lats # the output is a new lat d... 阅读全文
posted @ 2019-01-17 10:13 JarvanWang 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 第II节简要介绍与本文有关的先前工作第III节介绍文中使用的定义以及术语 第IV节介绍如何从原始ASR lattices中生成倒排索引结构 第V节详细介绍了ASR结构以及实验使用的数据 第VI节提供了在一个大数据集之上,提出的倒排索引结构 的STD实验评估。 第VII节总结倒排索引结构的优点以及未来展望 IV 带权自动机的时间因子转换器 本节提出了一... 阅读全文
posted @ 2019-01-17 10:11 JarvanWang 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 论文 Povey, D., Cheng, G., Wang, Y., Li, K., Xu, H., Yarmohamadi, M., & Khudanpur, S. (2018). Semi-orthogonal low-rank matrix factorization for deep neural networks. In Proceedings of the 19th Annual Co... 阅读全文
posted @ 2019-01-17 10:10 JarvanWang 阅读(682) 评论(0) 推荐(0) 编辑
摘要: TDNN模型示例 TDNN拼帧: 第8层:(0,3) 第7层:(-9,0) 第6层:(0,3) 第5层:(-6,0) 第4层:(0,3) 第3层:(-3,0) 第2层:(0,3) 第1层:(-3,0) 输出依赖 要在输出层处输出第1帧,各层需要的帧的时间索引如下: 第8层:1,4 第7层:-9,-6,1,4 第6层:-9,-6,1,4,7 第5层:-15,-12,-9... 阅读全文
posted @ 2019-01-17 10:09 JarvanWang 阅读(1563) 评论(0) 推荐(0) 编辑
摘要: Xvector nnet Training of Xvector nnet Xvector nnet in Kaldi Statistics Extraction Layer in Kaldi Statistics Pooling Layer in Kaldi Implementation in Kaldi Con... 阅读全文
posted @ 2018-12-27 10:30 JarvanWang 阅读(1628) 评论(0) 推荐(0) 编辑
摘要: 标准LSTM: 与标准LSTM相比,Kaldi的fastlstm对相同或类似的矩阵运算进行了合并。 # Component specific to 'projected' LSTM (LSTMP), contains both recurrent and non-recurrent projections fastlstm.W_rp, fast... 阅读全文
posted @ 2018-12-27 10:18 JarvanWang 阅读(1326) 评论(1) 推荐(0) 编辑
摘要: 根据任务,构建ComputationRequst 编译ComputationRequst,获取NnetComputation std::shared_ptr computation = compiler_.Compile(request); 创建计算——CreateComputation compiler.CreateComputation(opts, computat... 阅读全文
posted @ 2018-12-27 10:12 JarvanWang 阅读(1248) 评论(0) 推荐(0) 编辑
摘要: num_epochs=1 num_archives=64 args.num_jobs_initial=3 args.num_jobs_final=8 num_iters=2*num_epochs*num_archives/(args.num_jobs_initial+args.num_jobs_final) =2*1*64/(3+8)=12 3,3,4,4,5,5,6,6,6,7,7,8 6... 阅读全文
posted @ 2018-12-25 19:55 JarvanWang 阅读(803) 评论(0) 推荐(0) 编辑
摘要: 将特征在xvector神经网络模型中前向传播,并写出输出向量。我们将说话人识别的特定神经网络结构的输出向量或embedding称之为"Xvector"。该网络结构包括:帧级别的多个前馈层、帧级别之上的聚合层、统计池化层以及段级别的附加层。通常在统计池化层之后的输出层提取xvector。默认情况下,每个语句生成一个xvector。根据需要,可以chunk中提取多个xvector并求平均,以生成单个矢... 阅读全文
posted @ 2018-12-19 20:53 JarvanWang 阅读(994) 评论(0) 推荐(0) 编辑
摘要: 编译概述 编译流程将Nnet和ComputationRequest作为输入,输出NnetComputation。ComputationRequest包含可用的输入索引 以及 请求的输出索引。 不提供输出索引并让编译器找出需要的输入索引的原因是,某些网络,比如RNNs,为输出给定输出,可能会消耗任意数量的输入特征 struct ComputationRequest包含除... 阅读全文
posted @ 2018-12-19 20:48 JarvanWang 阅读(495) 评论(0) 推荐(0) 编辑