09 2020 档案

摘要:论文: CN-Celeb: A CHALLENGING CHINESE SPEAKER RECOGNITION DATASET 思想: 论文的贡献在于提供了一个非约束条件下的大规模中文说话人识别数据集,该数据集包含环境、通道与情感的变化。这是与现目前大多数开源说话人识别数据集(约束条件,很小的噪声和 阅读全文
posted @ 2020-09-22 22:31 卑微的蜗牛 阅读(2822) 评论(1) 推荐(0) 编辑
摘要:kaldi中现有的cmvn处理包含三种形式,即apply-cmvn、apply-cmvn-online、apply-cmvn-slide,这三种形式在使用时略有区别。 cmvn为倒谱均值方差归一化,大多数情况下只会对均值进行归一化,也可以写成cmn。 倒谱均值方差归一化,顾名思义,需要先通过comp 阅读全文
posted @ 2020-09-16 23:46 卑微的蜗牛 阅读(1653) 评论(0) 推荐(0) 编辑
摘要:论文: A time delay neural network architecture for efficient modeling of longtemporal contexts 思想: 对TDNN的优化改进,利用SVD将参数矩阵分解为两个更小的矩阵相乘的形势,从而减少层参数,以便利用更深的网 阅读全文
posted @ 2020-09-16 23:21 卑微的蜗牛 阅读(4074) 评论(0) 推荐(0) 编辑
摘要:论文: SpecAugment: A Simple Data Augmentation Methodfor Automatic Speech Recognition 思想: SpecAugment是一种log梅尔声谱层面上的数据增强方法,可以将模型训练的过拟合问题转化为欠拟合问题,以便通过大网络和长 阅读全文
posted @ 2020-09-16 23:09 卑微的蜗牛 阅读(3851) 评论(0) 推荐(0) 编辑
摘要:论文: TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION 思想: 1)借助RNN-T在语音识别上的优势,通过tranformer替换RNN-T中的RNN结构,实现并行化运算,加快训练过程; 2)encod 阅读全文
posted @ 2020-09-16 22:58 卑微的蜗牛 阅读(2878) 评论(0) 推荐(0) 编辑
摘要:论文: TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS 思想: 论文作者借助RNN-T的整体架构,利用transformer替换RNN结构;因为 阅读全文
posted @ 2020-09-16 22:48 卑微的蜗牛 阅读(4186) 评论(0) 推荐(0) 编辑
摘要:论文: THE SPEECHTRANSFORMER FOR LARGE-SCALE MANDARIN CHINESE SPEECH RECOGNITION 思想: 在speechTransformer基础上进行三点改进, 1)降低帧率,缩短声学特征的时序长度,在大规模语音数据训练时提升计算效率; 2 阅读全文
posted @ 2020-09-16 22:37 卑微的蜗牛 阅读(1909) 评论(0) 推荐(0) 编辑
摘要:论文: SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODELFOR SPEECH RECOGNITION 思路: 1)整体采用seq2seq的encoder和decoder架构; 2)借助transformer对文本位置信息进行 阅读全文
posted @ 2020-09-16 22:14 卑微的蜗牛 阅读(4129) 评论(0) 推荐(0) 编辑
摘要:论文: A NOVEL PYRAMIDAL-FSMN ARCHITECTURE WITH LATTICE-FREE MMI FOR SPEECH RECOGNITION 思想: 本文在DFSMN的基础上做了如下改进: 1)DFSMN中的序列记忆模块之间是逐层连接的,即第l层的序列记忆模块需要作为第l 阅读全文
posted @ 2020-09-16 22:01 卑微的蜗牛 阅读(493) 评论(0) 推荐(0) 编辑
摘要:论文: Deep-FSMN for Large Vocabulary Continuous Speech Recognition 思想: 对于大词汇量语音识别,往往需要更深的网络结构,但是当FSMN[1]或cFSMN[2]的结构很深时容易引发剃度消失和爆炸问题;于是本文对cFSMN结构进一步改进,对 阅读全文
posted @ 2020-09-16 21:51 卑微的蜗牛 阅读(2799) 评论(0) 推荐(0) 编辑
摘要:论文: Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition 思想: 对FSMN的模型尺寸方面进行了优化改进, 1)隐藏层后接低秩的线性矩阵,并对线性层的输出 阅读全文
posted @ 2020-09-16 10:43 卑微的蜗牛 阅读(567) 评论(0) 推荐(0) 编辑
摘要:论文: Feedforward Sequential Memory Networks:A New Structure to Learn Long-term Dependency 思想: 因为RNN类结构,包括LSTM,在训练时采用BPTT进行反向传播,容易引发梯度消失和爆炸的问题,造成训练不稳定;此 阅读全文
posted @ 2020-09-16 10:32 卑微的蜗牛 阅读(819) 评论(0) 推荐(0) 编辑
摘要:论文: IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION 思想: BLSTM作为当前主流的序列建模算法,在语音识别领域取得了不错的效果。但因为BLSTM的双向LSTM结构,在序列建模时需要 阅读全文
posted @ 2020-09-16 10:11 卑微的蜗牛 阅读(1219) 评论(0) 推荐(0) 编辑
摘要:论文: EESEN:END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING 现状: 混合DNN仍然GMM为其提供初始化的帧对齐,需要迭代训练强制对齐,以及决策树 end2end的asr面临问题: 如何将发 阅读全文
posted @ 2020-09-15 23:06 卑微的蜗牛 阅读(1407) 评论(0) 推荐(0) 编辑
摘要:论文: EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018 CTC的一个问题在于,其假设当前帧的输出与历史输出之间的条件独立性;RNN 阅读全文
posted @ 2020-09-15 22:26 卑微的蜗牛 阅读(4865) 评论(0) 推荐(0) 编辑
摘要:论文: RNNT:SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS,2013 LSTM结构: 多层双向LSTM结构: 思想: CTC对于当前时刻的输出只与当前时刻输入有关p(k|t),而RNN-T引入语音学的信息,不仅与当前时刻输入有关,还 阅读全文
posted @ 2020-09-15 22:14 卑微的蜗牛 阅读(2433) 评论(0) 推荐(0) 编辑
摘要:LAS: listen, attented and spell,Google 思想: sequence to sequence的思想,模型分为encoder和decoder两部分,首先将任意长的输入序列通过encoder转化为定长的特征表达,然后输入到decoder再转化为任意长的输出序列;相比于传 阅读全文
posted @ 2020-09-13 16:00 卑微的蜗牛 阅读(2009) 评论(0) 推荐(0) 编辑
摘要:论文: CTC:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks 思想: 语音识别中,一般包含语音段和对应的文本标签,但是却并不知道具体的 阅读全文
posted @ 2020-09-13 15:36 卑微的蜗牛 阅读(1761) 评论(0) 推荐(0) 编辑
摘要:论文: CLDNN: CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS,Google 思想: CNN、LSTM和DNN进行整合,发挥各个部分的建模能力; 1)CNN:学习频域不变形能力; 2)LSTM 阅读全文
posted @ 2020-09-12 20:18 卑微的蜗牛 阅读(1706) 评论(0) 推荐(0) 编辑
摘要:论文: Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification 思想: 本文主要是对x-vector的统计池化结构进行改进,引入self-attention机制,得到带权重的均值和标准方差,这样一方面可以 阅读全文
posted @ 2020-09-12 17:42 卑微的蜗牛 阅读(1007) 评论(0) 推荐(0) 编辑
摘要:论文: X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION 思想: X-VECTORS是当前声纹识别领域主流的baseline模型框架,得益于其网络中的statistics pooling层,X-VECTORS可接受任意长度的输入,转化为 阅读全文
posted @ 2020-09-12 17:35 卑微的蜗牛 阅读(7500) 评论(0) 推荐(0) 编辑
摘要:论文: TEXT-INDEPENDENT SPEAKER VERIFICATION USING 3D CONVOLUTIONAL NEURAL NETWORKS 思想: 本文提出了一种采用3D-CNN进行文本无关说话人验证任务的架构,相较于2D-CNN,3D-CNN增加了一个维度,使得网络能够一次性 阅读全文
posted @ 2020-09-12 17:30 卑微的蜗牛 阅读(664) 评论(0) 推荐(0) 编辑
摘要:论文: Deep Speaker: an End-to-End Neural Speaker Embedding System 思想: Deep Speaker是百度提出的一种端到端的说话人编码方法。该方法采样ResCNN或GRU进行帧级别的特征提取,然后时间平均层将输入序列帧级别的特征转化为句子级 阅读全文
posted @ 2020-09-12 17:20 卑微的蜗牛 阅读(2571) 评论(0) 推荐(1) 编辑
摘要:论文: GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION 思想: 本文是在Google上一篇论文attention-based model(TE2E[1])的基础上,针对损失函数做的改进,提出了GE2E loss;GE2E loss包含soft 阅读全文
posted @ 2020-09-12 17:11 卑微的蜗牛 阅读(2017) 评论(1) 推荐(0) 编辑
摘要:论文: ATTENTION-BASED MODELS FOR TEXT-DEPENDENT SPEAKER VERIFICATION 思想: 可以看作是在Google15年提出的d-vector算法的改进, 1)采用可学习的带权重和偏置的cosine得分; 2)为减少语句中的噪声和静音干扰,对LST 阅读全文
posted @ 2020-09-12 16:52 卑微的蜗牛 阅读(743) 评论(0) 推荐(0) 编辑
摘要:论文: End-to-End Text-Dependent Speaker Verification 思想: google提出的文本相关的说话人确认,通过DNN或LSTM的网络结构提取说话人特征表达;然后注册阶段输入说话人的多个文本相关句子(考虑环境噪声等干扰)得到的特征表达取平均值作为该说话人的e 阅读全文
posted @ 2020-09-12 16:35 卑微的蜗牛 阅读(1850) 评论(0) 推荐(0) 编辑
摘要:论文: VoxCeleb2: Deep Speaker Recognition 思想:显然,VoxCeleb2是在voxceleb基础上扩充和改进,仍然是两个贡献点: 1)扩大声纹识别数据集,由voxceleb的1251说话人超过19万句子,到voxceleb2的超过6000说话人共计超过百万的语音 阅读全文
posted @ 2020-09-12 16:25 卑微的蜗牛 阅读(1892) 评论(0) 推荐(0) 编辑
摘要:论文: VoxCeleb: a large-scale speaker identification dataset 思想: 1)整理了一个非约束的声纹识别数据集,1251个左右说话人,每个说话人100utts;整理来源youtube; 2)采用VGG-M网络进行说话人辨别和验证特征表达学习,并在此 阅读全文
posted @ 2020-09-12 16:18 卑微的蜗牛 阅读(1628) 评论(0) 推荐(0) 编辑