JarvanWang

2019年1月17日

摘要： #!/bin/bash # Copyright 2018 Jarvan Wang Apache 2.0. # Copyright 2016 Xiaohui Zhang Apache 2.0. # This srcipt operates on lattice directories, such as exp/tri4a_lats # the output is a new lat d... 阅读全文

posted @ 2019-01-17 10:13 JarvanWang 阅读(306) 评论(0) 推荐(0) 编辑

论文翻译——Lattice indexing for spoken term detection

摘要：第II节简要介绍与本文有关的先前工作第III节介绍文中使用的定义以及术语第IV节介绍如何从原始ASR lattices中生成倒排索引结构第V节详细介绍了ASR结构以及实验使用的数据第VI节提供了在一个大数据集之上，提出的倒排索引结构的STD实验评估。第VII节总结倒排索引结构的优点以及未来展望 IV 带权自动机的时间因子转换器本节提出了一... 阅读全文

posted @ 2019-01-17 10:11 JarvanWang 阅读(766) 评论(0) 推荐(0) 编辑

Factorized TDNN（因子分解TDNN，TDNN-F）

摘要：论文 Povey, D., Cheng, G., Wang, Y., Li, K., Xu, H., Yarmohamadi, M., & Khudanpur, S. (2018). Semi-orthogonal low-rank matrix factorization for deep neural networks. In Proceedings of the 19th Annual Co... 阅读全文

posted @ 2019-01-17 10:10 JarvanWang 阅读(682) 评论(0) 推荐(0) 编辑

Chain TDNN/LSTM的拼帧索引、延时

摘要： TDNN模型示例 TDNN拼帧：第8层：(0,3) 第7层：(-9,0) 第6层：(0,3) 第5层：(-6,0) 第4层：(0,3) 第3层：(-3,0) 第2层：(0,3) 第1层：(-3,0) 输出依赖要在输出层处输出第1帧，各层需要的帧的时间索引如下：第8层：1,4 第7层：-9,-6,1,4 第6层：-9,-6,1,4,7 第5层：-15,-12,-9... 阅读全文

posted @ 2019-01-17 10:09 JarvanWang 阅读(1563) 评论(0) 推荐(0) 编辑

2018年12月27日

Xvector in Kaldi nnet3

摘要： Xvector nnet Training of Xvector nnet Xvector nnet in Kaldi Statistics Extraction Layer in Kaldi Statistics Pooling Layer in Kaldi Implementation in Kaldi Con... 阅读全文

posted @ 2018-12-27 10:30 JarvanWang 阅读(1628) 评论(0) 推荐(0) 编辑

Kaldi nnet3的fastlstm与标准LSTM

摘要：标准LSTM：与标准LSTM相比，Kaldi的fastlstm对相同或类似的矩阵运算进行了合并。 # Component specific to 'projected' LSTM (LSTMP), contains both recurrent and non-recurrent projections fastlstm.W_rp, fast... 阅读全文

posted @ 2018-12-27 10:18 JarvanWang 阅读(1326) 评论(1) 推荐(0) 编辑

Kaldi nnet3的前向计算

摘要：根据任务，构建ComputationRequst 编译ComputationRequst，获取NnetComputation std::shared_ptr computation = compiler_.Compile(request); 创建计算——CreateComputation compiler.CreateComputation(opts, computat... 阅读全文

posted @ 2018-12-27 10:12 JarvanWang 阅读(1248) 评论(0) 推荐(0) 编辑

2018年12月25日

nnet3的并行化训练

摘要： num_epochs=1 num_archives=64 args.num_jobs_initial=3 args.num_jobs_final=8 num_iters=2*num_epochs*num_archives/(args.num_jobs_initial+args.num_jobs_final) =2*1*64/(3+8)=12 3,3,4,4,5,5,6,6,6,7,7,8 6... 阅读全文

posted @ 2018-12-25 19:55 JarvanWang 阅读(803) 评论(0) 推荐(0) 编辑

2018年12月19日

nnet3bin/nnet3-xvector-compute.cc

摘要：将特征在xvector神经网络模型中前向传播，并写出输出向量。我们将说话人识别的特定神经网络结构的输出向量或embedding称之为"Xvector"。该网络结构包括：帧级别的多个前馈层、帧级别之上的聚合层、统计池化层以及段级别的附加层。通常在统计池化层之后的输出层提取xvector。默认情况下，每个语句生成一个xvector。根据需要，可以chunk中提取多个xvector并求平均，以生成单个矢... 阅读全文

posted @ 2018-12-19 20:53 JarvanWang 阅读(994) 评论(0) 推荐(0) 编辑

nnet3配置中的“编译”

摘要：编译概述编译流程将Nnet和ComputationRequest作为输入，输出NnetComputation。ComputationRequest包含可用的输入索引以及请求的输出索引。不提供输出索引并让编译器找出需要的输入索引的原因是，某些网络，比如RNNs，为输出给定输出，可能会消耗任意数量的输入特征 struct ComputationRequest包含除... 阅读全文

posted @ 2018-12-19 20:48 JarvanWang 阅读(495) 评论(0) 推荐(0) 编辑

公告