摘要: 论文: CN-Celeb: A CHALLENGING CHINESE SPEAKER RECOGNITION DATASET 思想: 论文的贡献在于提供了一个非约束条件下的大规模中文说话人识别数据集,该数据集包含环境、通道与情感的变化。这是与现目前大多数开源说话人识别数据集(约束条件,很小的噪声和 阅读全文
posted @ 2020-09-22 22:31 卑微的蜗牛 阅读(2895) 评论(1) 推荐(0) 编辑
摘要: kaldi中现有的cmvn处理包含三种形式,即apply-cmvn、apply-cmvn-online、apply-cmvn-slide,这三种形式在使用时略有区别。 cmvn为倒谱均值方差归一化,大多数情况下只会对均值进行归一化,也可以写成cmn。 倒谱均值方差归一化,顾名思义,需要先通过comp 阅读全文
posted @ 2020-09-16 23:46 卑微的蜗牛 阅读(1675) 评论(0) 推荐(0) 编辑
摘要: 论文: A time delay neural network architecture for efficient modeling of longtemporal contexts 思想: 对TDNN的优化改进,利用SVD将参数矩阵分解为两个更小的矩阵相乘的形势,从而减少层参数,以便利用更深的网 阅读全文
posted @ 2020-09-16 23:21 卑微的蜗牛 阅读(4122) 评论(0) 推荐(0) 编辑
摘要: 论文: SpecAugment: A Simple Data Augmentation Methodfor Automatic Speech Recognition 思想: SpecAugment是一种log梅尔声谱层面上的数据增强方法,可以将模型训练的过拟合问题转化为欠拟合问题,以便通过大网络和长 阅读全文
posted @ 2020-09-16 23:09 卑微的蜗牛 阅读(3903) 评论(0) 推荐(0) 编辑
摘要: 论文: TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION 思想: 1)借助RNN-T在语音识别上的优势,通过tranformer替换RNN-T中的RNN结构,实现并行化运算,加快训练过程; 2)encod 阅读全文
posted @ 2020-09-16 22:58 卑微的蜗牛 阅读(2931) 评论(0) 推荐(0) 编辑
摘要: 论文: TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS 思想: 论文作者借助RNN-T的整体架构,利用transformer替换RNN结构;因为 阅读全文
posted @ 2020-09-16 22:48 卑微的蜗牛 阅读(4230) 评论(0) 推荐(0) 编辑
摘要: 论文: THE SPEECHTRANSFORMER FOR LARGE-SCALE MANDARIN CHINESE SPEECH RECOGNITION 思想: 在speechTransformer基础上进行三点改进, 1)降低帧率,缩短声学特征的时序长度,在大规模语音数据训练时提升计算效率; 2 阅读全文
posted @ 2020-09-16 22:37 卑微的蜗牛 阅读(1927) 评论(0) 推荐(0) 编辑
摘要: 论文: SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODELFOR SPEECH RECOGNITION 思路: 1)整体采用seq2seq的encoder和decoder架构; 2)借助transformer对文本位置信息进行 阅读全文
posted @ 2020-09-16 22:14 卑微的蜗牛 阅读(4160) 评论(0) 推荐(0) 编辑
摘要: 论文: A NOVEL PYRAMIDAL-FSMN ARCHITECTURE WITH LATTICE-FREE MMI FOR SPEECH RECOGNITION 思想: 本文在DFSMN的基础上做了如下改进: 1)DFSMN中的序列记忆模块之间是逐层连接的,即第l层的序列记忆模块需要作为第l 阅读全文
posted @ 2020-09-16 22:01 卑微的蜗牛 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 论文: Deep-FSMN for Large Vocabulary Continuous Speech Recognition 思想: 对于大词汇量语音识别,往往需要更深的网络结构,但是当FSMN[1]或cFSMN[2]的结构很深时容易引发剃度消失和爆炸问题;于是本文对cFSMN结构进一步改进,对 阅读全文
posted @ 2020-09-16 21:51 卑微的蜗牛 阅读(2854) 评论(0) 推荐(0) 编辑