2018 年 6月 7 日随笔档案 - JarvanWang

2018年6月7日

摘要： usage: steps/align_si.sh <data-dir> <lang-dir> <src-dir> <align-dir> e.g.: steps/align_si.sh data/train data/lang exp/tri1 exp/tri1_ali 对特征进行若干变换调整模型阅读全文

posted @ 2018-06-07 20:39 JarvanWang 阅读(1307) 评论(0) 推荐(0) 编辑

steps/train_sat.sh

摘要： > 阅读全文

posted @ 2018-06-07 20:37 JarvanWang 阅读(642) 评论(0) 推荐(0) 编辑

steps/train_lda_mllt.sh

摘要： LDA+MLLT指的是在计算MFCC后对特征进行的变换：首先对特征进行扩帧，使用LDA降维（默认降低到40），然后经过多次迭代轮数估计一个对角变换（又称为MLLT或CTC）。详见 http://kaldi-asr.org/doc/transform.html > 阅读全文

posted @ 2018-06-07 20:37 JarvanWang 阅读(1388) 评论(0) 推荐(0) 编辑

steps/train_mono.sh

摘要： > 定义拓扑结构、参数初始化 $ gmm-init-mono --shared-phones=$lang/phones/sets.int "--train-feats=$feats subset-feats --n=10 ark:- ark:-|" $lang/topo $feat_dim $dir/0.mdl $dir/tree $ wc -w data/lang_test/p... 阅读全文

posted @ 2018-06-07 20:36 JarvanWang 阅读(501) 评论(0) 推荐(0) 编辑

Factorized Hidden Variability Learning For Adaptation Of Short Duration Language Identification Models

摘要：基于因子分解的隐层变量学习，应用于短语句语种识别模型的自适应 LFVs（Language Feature Vectors，语种特征向量）[11]，与BSVs（Bottleneck Speaker Vectors）类似，即瓶颈特征 3.1. 神经元调制由于说话人特性的变化反映在语音信号中，因此将表示说话人适应声学特性的特征拼接到特征中。如VTLN或fMLLR，是直接对... 阅读全文

posted @ 2018-06-07 20:35 JarvanWang 阅读(308) 评论(0) 推荐(0) 编辑

Unsupervised Domain Adaptation Via Domain Adversarial Training For Speaker Recognition

摘要：当评估数据集的领域与训练数据集的领域相似时，用于说话者识别的i-Vector方法取得了良好的性能。但是，在现实应用中，训练数据集和评估数据集之间始终存在不匹配，导致性能下降。为了解决这个问题，本文提出通过领域对抗训练来学习领域不变量和说话人鉴别性语音表征。具体的，在域对抗训练方法中，我们使用梯度反转层去除域变量，并将不同域数据投影到同一子空间中。此外，我们将所提出的方法与其他基于i-Vector的... 阅读全文

posted @ 2018-06-07 20:35 JarvanWang 阅读(648) 评论(0) 推荐(0) 编辑

Empirical Evaluation of Speaker Adaptation on DNN based Acoustic Model

摘要： DNN声学模型说话人自适应的经验性评估 2018年3月27日发表于：Sound (cs.SD); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS) 说话人自适应时从说话人无关模型中估计一个说话人相关的声学模型，以减小训练集与测试集由于说话人差异导致的不匹配。已经出现了许多... 阅读全文

posted @ 2018-06-07 20:34 JarvanWang 阅读(1100) 评论(0) 推荐(0) 编辑

Utterance-Wise Recurrent Dropout And Iterative Speaker Adaptation For Robust Monaural Speech Recognition

摘要：单声道语音识别的逐句循环Dropout迭代说话人自适应 WRBN（wide residual BLSTM network，宽残差双向长短时记忆网络） [2] J. Heymann, L. Drude, and R. Haeb-Umbach, "Wide residual blstm network with discriminative speaker adaptation fo... 阅读全文

posted @ 2018-06-07 20:34 JarvanWang 阅读(284) 评论(0) 推荐(0) 编辑

Simple Recurrent Unit，单循环单元

摘要： SRU（Simple Recurrent Unit），单循环单元 src/nnet/nnet-recurrent.h 使用Tanh作为非线性单元 SRU不保留内部状态训练时，每个训练序列以零向量开始可以用作'以句为单位的'训练以及多流训练 nnet3/nnet3-simple-recurrent 阅读全文

posted @ 2018-06-07 20:33 JarvanWang 阅读(877) 评论(0) 推荐(0) 编辑

Kaldi的关键词搜索（Keyword Search，KWS）

摘要：本文简单地介绍了KWS的原理——为Lattice中每个词生成索引并进行搜索；介绍了如何处理OOV——替补（Proxy，词典内对OOV的替补）关键词技术；介绍了KWS的语料库格式；介绍了KWS在Kaldi中的示例训练脚本和搜索脚本。 KWS系统示例：论文下载： http://www.clsp.jhu.edu/~guoguo/papers/icassp2013_lexicon_... 阅读全文

posted @ 2018-06-07 20:32 JarvanWang 阅读(6010) 评论(0) 推荐(0) 编辑

ASLP Kaldi

摘要： ASLP(Audio, Speech and Language Processing Group，音频、语音和语言处理组)位于西北工业大学，隶属于陕西省语音和图像信息处理重点实验室（SAIIP）。 ASLP小组成立于1995年。ASLP小组的使命是促进音频，语音和语言处理学科内的广泛学科的跨学科研究和教育。目前，ASLP集团的研究范围包括人机语音通信，语音和音频信号处理，视听处理，多媒体内容分析和... 阅读全文

posted @ 2018-06-07 20:32 JarvanWang 阅读(1153) 评论(0) 推荐(0) 编辑

关键词检索中的代数概念

摘要： Monoid，独异点独异点是一个，集合只包含单位元，单个二元关系运算的代数结构。单位元，identity element 单位元是（二元运算符）集合中的一种特殊类型的元素，当与另一元素进行二元运算时，结果保持另一元素不变。半环，semiring 幂等，idempotence 在数学和计算机科学中，幂等是某个运算的性质，进行任意... 阅读全文

posted @ 2018-06-07 20:31 JarvanWang 阅读(406) 评论(0) 推荐(0) 编辑

LAS（Listener、Attender、Speller）端到端构架

摘要：基于注意力（Attention）机制的端到端系统，又被称为LAS端到端构架。 [6] W. Chan, N. Jaitly, Q. Le, O. Vinyals. Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition. ICASSP 2016. ... 阅读全文

posted @ 2018-06-07 20:30 JarvanWang 阅读(1768) 评论(0) 推荐(0) 编辑

Keyword Spotting Methods（关键词检测）

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2018-06-07 20:30 JarvanWang 阅读(16) 评论(0) 推荐(0) 编辑

灾难性遗忘（catastrophic forgetting）

摘要： Overcoming catastrophic forgetting in neural networks（克服神经网络中的灾难性遗忘）原文： https://www.pnas.org/content/pnas/early/2017/03/13/1611835114.full.pdf 翻译： https://www.dengfanxin.cn/?p=368 摘要：... 阅读全文

posted @ 2018-06-07 20:29 JarvanWang 阅读(5783) 评论(0) 推荐(0) 编辑

A Bayesian Approach to Deep Neural Network Adaptation with Applications to Robust Automatic Speech Recognition

摘要：基于贝叶斯的深度神经网络自适应及其在鲁棒自动语音识别中的应用直接贝叶斯DNN自适应使用高斯先验对DNN进行MAP自适应为何贝叶斯在模型自适应中很有用？因为自适应问题可以视为后验估计问题：能够克服灾难性遗忘问题在实现通用智能时，神经网络需要学习并记住多个任务，任务顺序无标注，任务会不可预期地切换，同种任务可能在很长一段时间内不会复现。当对当... 阅读全文

posted @ 2018-06-07 20:29 JarvanWang 阅读(367) 评论(0) 推荐(0) 编辑

Kaldi如何统计data数据集

摘要：统计时长 wav-to-duration scp:data/train/wav.scp ark,t:- 2>/dev/null|awk 'BEGIN{SUM=0}{SUM+=$2}END{print SUM/3600}' 或 awk 'BEGIN{SUM=0}{SUM+=$2}END{print SUM/3600}' data/train/utt2dur 生成utt2dur u... 阅读全文

posted @ 2018-06-07 20:28 JarvanWang 阅读(1204) 评论(0) 推荐(0) 编辑

nnet3的代码分析

摘要： nnet3/nnet-common.h 定义了Index，(n, t, x)三元组，表示第n个batch中第t帧。并声明了关于Index或Cindex的一些读写操作。 nnet3/nnet-nnet.h 声明了NetworkNode（主要包含其类型以及索引信息）声明了Nnet（nnet3网络类） private: //网络中的组件名列表 std::vecto... 阅读全文

posted @ 2018-06-07 20:27 JarvanWang 阅读(1118) 评论(0) 推荐(0) 编辑

Kaldi中的L2正则化

摘要： steps/nnet3/train_dnn.py --l2-regularize-factor 影响模型参数的l2正则化强度的因子。要进行l2正则化，主要方法是在配置文件中使用'l2-regularize'进行配置。l2正则化因子将乘以组件中的l2正则化值，并且可用于通过模型平均化以校正与并行化带来的影响。（float，默认值= 1） src/nnet3/nnet-utils.cc:... 阅读全文

posted @ 2018-06-07 20:26 JarvanWang 阅读(1141) 评论(0) 推荐(0) 编辑

HMM拓扑与转移模型

摘要： 1 2 3 4 5 6 7 8 0 0 0 0.5 1 0.5 1 1 1 0.5 2 0.5 2 2 2 0.5 3 0.5 3 在这个特定的HmmTopology对象中有一个TopologyEntry，它涵盖了音素1到8（因此在这个例子中只有8个音素，它们都共享相同的拓扑结构）。有三种发射状态... 阅读全文

posted @ 2018-06-07 20:25 JarvanWang 阅读(1141) 评论(0) 推荐(0) 编辑

JarvanWang

公告