alex_bn_lee

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

【758】Transformer结构图

参考:Transformer - Attention

参考:The Transformer Family

参考:利用 Transformer 网络建立预测模型


Full Architecture

The full model architecture of the transformer.

分解(Feed Forward即是Fully Connected)

Encoder部分

Decoder部分

Multi-Head Self-Attention

Encoder

Decoder

Encoder与Decoder的连接

  • Encoder的输出要分别输入到没一层的Decoder里面
  • 第一个Decoder需要Encoder的输入,但是之后的操作就用前一个输出作为输入了!详见下图动画

posted on   McDelfino  阅读(1276)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2019-10-23 【444】Data Analysis (shp, arcpy)
点击右上角即可分享
微信分享提示