alex_bn_lee

导航

【758】Transformer结构图

参考:Transformer - Attention

参考:The Transformer Family

参考:利用 Transformer 网络建立预测模型


Full Architecture

The full model architecture of the transformer.

分解(Feed Forward即是Fully Connected)

Encoder部分

Decoder部分

Multi-Head Self-Attention

Encoder

Decoder

Encoder与Decoder的连接

  • Encoder的输出要分别输入到没一层的Decoder里面
  • 第一个Decoder需要Encoder的输入,但是之后的操作就用前一个输出作为输入了!详见下图动画

posted on 2022-10-23 18:37  McDelfino  阅读(948)  评论(0编辑  收藏  举报