Lecture 5 -- Transformer

1. Seq2seq


Transformer是一种Seq2seq模型

 

 

2. Model Architecture


A. Encoder

B. Decoder (AT & NAT)

由于Decoder是一个一个vector输出的,因此self-attention转变为了masked self-attention

C. Cross Attention

原文的cross attention方式与各种不同的cross attention方式如上图。原文是最后一个编码器的输出连接到所有的解码器。

 

 

3. 怎样进行训练?


训练过程中给Decoder的输入是正确的答案,测试过程中给Decoder的输入是Decoder自己的输出!

课件:Transformer (ntu.edu.tw)

 

 


END

posted @ 2023-08-06 01:06  Peg_Wu  阅读(12)  评论(0编辑  收藏  举报