摘要: 一、RNN-T, CTC, HMM 的训练和解码过程 training: 1. 找到所有的alignments, 2. 计算所有的alignments的score和 3.根据得分score更新模型参数。 4.根据训练好的模型参数,计算输入特征X的输出token training时:P(Y|X)与每个 阅读全文
posted @ 2023-05-29 17:11 wieneralan 阅读(326) 评论(0) 推荐(0) 编辑
摘要: ctc只要encoder即可。输入一个x,encoder输出一个h, 经过一个linear classifier输出预测的字符(包括空字符Φ)。 训练时,需要穷举alignment,再使用cross-entropy进行反向梯度参数更新。 ctc存在的问题: 会出现“结巴”。linear classi 阅读全文
posted @ 2023-05-29 16:51 wieneralan 阅读(68) 评论(0) 推荐(0) 编辑
摘要: Listen过程:将MFCC特征X输入encoder得到输出 h向量,每个x输出一个h。 encoder可以是:RNN、CNN、self-attention layers等 attention and spell过程 1. 向量z0与向量h进行attention运算产生数字α0 2. 使用softm 阅读全文
posted @ 2023-05-29 16:24 wieneralan 阅读(74) 评论(0) 推荐(0) 编辑
摘要: GMM-HMM:给定MFCC特征X时,计算每一个状态产生x的概率p(x|a)、p(x|b)....,然后最大的概率就是其对应的状态 DNN-HMM:给定MFCC特征X时,直接计算x属于每一个状态的概率p(s|x),最大值就是对应的状态。 p(a)是训练集中每个状态出现的概率。 阅读全文
posted @ 2023-05-29 14:40 wieneralan 阅读(282) 评论(0) 推荐(0) 编辑
摘要: GMM-HMM:包含3个状态,每个状态由一个GMM混合高斯分布(u,D,pi),每个混合高斯分布包含pi个高斯函数 单个因素的训练过程 trainging训练阶段: 1. 每个triphone三音子对应一个GMM-HMM。训练时先对齐 找到每个triphone(GMM-HMM)的音频特征MFCC序列 阅读全文
posted @ 2023-05-29 10:41 wieneralan 阅读(572) 评论(0) 推荐(0) 编辑