李宏毅语音课程笔记-CTC模型
ctc只要encoder即可。输入一个x,encoder输出一个h, 经过一个linear classifier输出预测的字符(包括空字符Φ)。
训练时,需要穷举alignment,再使用cross-entropy进行反向梯度参数更新。
ctc存在的问题:
会出现“结巴”。linear classifier相当于decoder了。前三个字符都是'c'的话ccc 合并后是c,但如果第二个产生的是 空字符Φ,则最终结果就是cc。
HMM、CTC、RNN-T的不同对齐方式
CTC的alignment过程:
字符位置:下一步有3种走法。 空字符Φ下一步有2种走法,不能跳过非空token。
非空字符走法
空字符走法