语音识别算法阅读之transformer-transducer(facebook)

论文：

　　TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION

思想：

　　1）借助RNN-T在语音识别上的优势，通过tranformer替换RNN-T中的RNN结构，实现并行化运算，加快训练过程；

　　2）encoder部分前段引入包含因果卷积的VGGNet，一方面缩短声学特征的时序长度，节约计算，另一方面融合上下文信息(包含位置信息)到后续的attention模块；

　　3）采用截断的attention机制，控制左右上下文时间片的长度，降低延迟，attention计算复杂度由O(T2)降低为O(T),满足流式语音识别任务的需要

模型：

y^= (y1^,y2^,···yT+U^)∈Hrnnt(x,y)⊂{Z∪b}T+U,y^满足：去重复连续字符和去blank后为对应的标签序列y；

RNN-T预测时：当预测输出y_u为blank时，预测网络的输入不变，encoder网络输入更新为x_t+1；当y_u为non-blank时，预测网络输入更新为y_u,encoder网络输入保持为x_t；

transformer：transformer是一种非循环的self-attention结构，由多个multi-head attention和feed-forward network组成的子墨块串联而成，能够得到高层次的特征表达

multi-head attention：包含三个输入：Q、K、V，分别被转化到多个self-attention子空间学习时序依赖，最后再将各个子空间输出进行合并，得到高层次的特征表达

其中，H代表self-attention个数；ei代表第i个self-attention子空间，WO、WQ、WK、WV分别为线性层的权重项，ei计算公式如下

其中，√dk为缩放因子，防止dk较大时，QKT较大，导致训练不稳定

VGG-transformer:由VGGNet和transformer串联而成，VGGNet一方面能够具有较强的上下文建模能力，另一方面可以缩短声学特征的时序长度，提升计算效率；transformer encoder一方面，能够并行化运算，加速训练过程；另一方面利用了attention在处理长时依赖方面的优势

VGGNet采用causal convolution结构：时序的声学特征可以看做以时间为横轴，频率为纵轴的二维图像，这样可以利用二维卷积进行上下文建模和降低帧率

　　　　　　二维卷积conv，对于卷积核大小为N*K的卷积，其覆盖范围为：

　　　　　　causal conv结构相当于一种特殊的二维卷积，即在卷积计算时仅利用历史的上文信息，不利用未来的时序信息；这样覆盖范围为：

其中，inf表示利用所有的时序信息；L＝5，R＝3表示利用历史和未来的声学特征帧数；通过此，可以将原始的复杂度O(T2)转化为O(T),但是会相应的损失一部分精度

训练：

encoder选项：1）BiLSTM 4*640；2）LSTM 5x1024；3）transformer 12x：2层VGGNets(3*3*64，max-pooling1=3,max-pooling2=2)+12层transformer(input=512,head nums=8,feed-forward inner-hidden-size=2048)
预测网络选项：1) LSTM 2x700；2)Transformer 6x: 一层VGGNets(3*3*64，no max-pooling)＋6层6transformer(input=512,head nums=8,feed-forward inner-hidden-size=2048)，且attention的attend下文时序信息R＝0，即不利用未来的时序信息
联合网络：对encoder输出ht和预测输出pu进行线性组合，输出预测字符的概率分布

其中Wh、Wp、Wo分别为ht、pu、zt,u的权重项

实验结果：

encoder网络+预测网络：transformer 12x + LSTM 2*700结构取得了最好的结果，相比于其他LSTM、BLSTM、transformer之间的相互组合
attention的上下文时序信息宽度L、R对识别结果均会造成一定的影响；缩短上下文时序信息宽度L、R的宽度均会造成一定的识别精度损失，但同时节约计算和降低延迟；采用有限宽度的上下文时序信息，可以将计算复杂度由O(T²)减小到O(T);实际可以根据场景对于精度和延迟、计算的要求进行权衡

结论：

Reference:

[1] https://arxiv.org/pdf/1910.12977.pdf

posted @ 2020-09-16 22:58 卑微的蜗牛阅读(2931) 评论(0) 编辑收藏举报

刷新页面返回顶部