2023 年 5月 29 日随笔档案 - wieneralan

2023年5月29日

摘要：一、RNN-T, CTC, HMM 的训练和解码过程 training: 1. 找到所有的alignments， 2. 计算所有的alignments的score和 3.根据得分score更新模型参数。 4.根据训练好的模型参数，计算输入特征X的输出token training时：P(Y|X)与每个阅读全文

posted @ 2023-05-29 17:11 wieneralan 阅读(326) 评论(0) 推荐(0) 编辑

李宏毅语音课程笔记-CTC模型

摘要： ctc只要encoder即可。输入一个x，encoder输出一个h, 经过一个linear classifier输出预测的字符(包括空字符Φ)。训练时，需要穷举alignment，再使用cross-entropy进行反向梯度参数更新。 ctc存在的问题：会出现“结巴”。linear classi 阅读全文

posted @ 2023-05-29 16:51 wieneralan 阅读(68) 评论(0) 推荐(0) 编辑

李宏毅语音课程笔记-LAS模型原理

摘要： Listen过程：将MFCC特征X输入encoder得到输出 h向量，每个x输出一个h。 encoder可以是：RNN、CNN、self-attention layers等 attention and spell过程 1. 向量z0与向量h进行attention运算产生数字α0 2. 使用softm 阅读全文

posted @ 2023-05-29 16:24 wieneralan 阅读(74) 评论(0) 推荐(0) 编辑

DNN-HMM和GMM-HMM的简单区别

摘要： GMM-HMM：给定MFCC特征X时，计算每一个状态产生x的概率p(x|a)、p(x|b)....，然后最大的概率就是其对应的状态 DNN-HMM：给定MFCC特征X时，直接计算x属于每一个状态的概率p(s|x)，最大值就是对应的状态。 p(a)是训练集中每个状态出现的概率。阅读全文

posted @ 2023-05-29 14:40 wieneralan 阅读(282) 评论(0) 推荐(0) 编辑

GMM-HMM在语音中的训练及和预测的简要流程

摘要： GMM-HMM：包含3个状态，每个状态由一个GMM混合高斯分布(u，D，pi)，每个混合高斯分布包含pi个高斯函数单个因素的训练过程 trainging训练阶段： 1. 每个triphone三音子对应一个GMM-HMM。训练时先对齐找到每个triphone(GMM-HMM)的音频特征MFCC序列阅读全文

posted @ 2023-05-29 10:41 wieneralan 阅读(572) 评论(0) 推荐(0) 编辑

wieneralan

公告