摘要:
论文: Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition 思想: 对FSMN的模型尺寸方面进行了优化改进, 1)隐藏层后接低秩的线性矩阵,并对线性层的输出 阅读全文
摘要:
论文: Feedforward Sequential Memory Networks:A New Structure to Learn Long-term Dependency 思想: 因为RNN类结构,包括LSTM,在训练时采用BPTT进行反向传播,容易引发梯度消失和爆炸的问题,造成训练不稳定;此 阅读全文
摘要:
论文: IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION 思想: BLSTM作为当前主流的序列建模算法,在语音识别领域取得了不错的效果。但因为BLSTM的双向LSTM结构,在序列建模时需要 阅读全文
摘要:
论文: EESEN:END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING 现状: 混合DNN仍然GMM为其提供初始化的帧对齐,需要迭代训练强制对齐,以及决策树 end2end的asr面临问题: 如何将发 阅读全文
摘要:
论文: EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018 CTC的一个问题在于,其假设当前帧的输出与历史输出之间的条件独立性;RNN 阅读全文
摘要:
论文: RNNT:SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS,2013 LSTM结构: 多层双向LSTM结构: 思想: CTC对于当前时刻的输出只与当前时刻输入有关p(k|t),而RNN-T引入语音学的信息,不仅与当前时刻输入有关,还 阅读全文
摘要:
LAS: listen, attented and spell,Google 思想: sequence to sequence的思想,模型分为encoder和decoder两部分,首先将任意长的输入序列通过encoder转化为定长的特征表达,然后输入到decoder再转化为任意长的输出序列;相比于传 阅读全文
摘要:
论文: CTC:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks 思想: 语音识别中,一般包含语音段和对应的文本标签,但是却并不知道具体的 阅读全文
摘要:
论文: CLDNN: CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS,Google 思想: CNN、LSTM和DNN进行整合,发挥各个部分的建模能力; 1)CNN:学习频域不变形能力; 2)LSTM 阅读全文
摘要:
论文: Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification 思想: 本文主要是对x-vector的统计池化结构进行改进,引入self-attention机制,得到带权重的均值和标准方差,这样一方面可以 阅读全文