Sequence To Sequence（序列对序列）

输出序列的长度由机器自己决定，例如：语音辨识、机器翻译、语音翻译

Sequence To Sequence一般分成两部分：

Encoder

Encoder中分为多个Block，每个Block中包含多层；主要有Self attention和全连接层：

Self attention会输入的序列分别对应输出一个序列，在Transformer中加入了一些设计（residual）：

例如：语音辨识的Decoder；

1.首先先给其设置一个特殊符号，代表开始；Decoder会输出一个向量，长度为可能输出字的长度，向量元素的值为对应字的概率，向量的输出为概率最大的字；

2.之后把前一个输出的字作为开始符号输出，再次输出之后的字，直至最后输出结束符号：

注：如果中间某个输出有误，则会使下一个输入错误，可能影响后面全部的结果

可以看出Encoder和Decoder比较相似

Masked self attention与self attention的区别：

由于NAT事先不知道输出序列的长度，所以有两种方法：

所以NAT的速度比AT的速度快

具体为：

Training（训练）：

例如：语音辨识的训练

使Decoder输出的序列（字的概率分布）与正确输出字的序列越接近越好（类似分类问题）

发表于 2023-07-20 18:02 天亮yǐ后阅读(226) 评论(0) 收藏举报