摘要:
Hidden Markov Model (HMM) 以前语音识别用的是统计模型,而现在,深度学习的方法有很多思想也还是借鉴的HMM。 X是输入语音序列,Y是输出文字,我们的目标是穷举所有可能的Y,找到一个$Y*$使得$P(Y|X)$最大化。这个过程叫作解码。 根据贝叶斯定律,我们可以把它变成$\fr 阅读全文
摘要:
Connectionist Temporal Classification (CTC) CTC可以用于线上实时地语音识别,编码器用的是单向的RNN,解码是用MLP来预测文字分布。 编码器将语音输入$xi$编码成$hi$,MLP再对它乘上一个权重,接上Softmax,得到词表V大小的概率分布。 但有时 阅读全文