李宏毅语音课程笔记-CTC模型

ctc只要encoder即可。输入一个x,encoder输出一个h, 经过一个linear classifier输出预测的字符(包括空字符Φ)。

 训练时,需要穷举alignment,再使用cross-entropy进行反向梯度参数更新。

ctc存在的问题:

 会出现“结巴”。linear classifier相当于decoder了。前三个字符都是'c'的话ccc 合并后是c,但如果第二个产生的是 空字符Φ,则最终结果就是cc。

HMM、CTC、RNN-T的不同对齐方式

 

 

CTC的alignment过程:

字符位置:下一步有3种走法。 空字符Φ下一步有2种走法,不能跳过非空token。

 

                      非空字符走法

                        空字符走法

 

posted @ 2023-05-29 16:51  wieneralan  阅读(68)  评论(0编辑  收藏  举报