官方
https://jalammar.github.io/illustrated-transformer/
知乎解读
https://zhuanlan.zhihu.com/p/266069794
解码器中的自关注层的运行方式与编码器中的运行方式略有不同:
在解码器中,自注意力层只允许关注输出序列中较早的位置。-inf
这是通过在自注意力计算中的 softmax 步骤之前屏蔽未来位置(将它们设置为 )来完成的。
“编码器-解码器注意力”层的工作方式与多头自注意力类似,只不过它从其下面的层创建查询矩阵,并从编码器堆栈的输出中获取键和值矩阵。
多层堆叠
多头得到到多个结果 z1 z2
z1 z2经过 feed forward neural network (全连接层)得到向量r1 r2.
既然是向量,就可以重复输入网络了
然后就可以重复堆积层了。
layernorm 应用了残差网络思想(确保加的层不会导致比原来系统差)
1 加操作:输出+输入,增加了输入有利于解决梯度消失
2 归一化:保证方差,均值稳定,减缓梯度爆炸
Transformer
10.7. Transformer — 动手学深度学习 2.0.0 documentation (d2l.ai)
掩蔽(masked)注意力
但是,解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽(masked)注意力保留了自回归(auto-regressive)属性,确保预测仅依赖于已生成的输出词元。
103. 103 - 103 transformer整体架构梳理_哔哩哔哩_bilibili
掩蔽(masked)注意力
但是,解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽(masked)注意力保留了自回归(auto-regressive)属性,确保预测仅依赖于已生成的输出词元。
编码时候知道全文 例如中文 我 爱 你
但是预测时候,不知道全文,只知道目前已经翻译出来的。 I LOVE (YOU等待预测) s所以掩码遮蔽.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2018-10-23 收藏
2018-10-23 當 Alexa 遇上 ESP8266 (一)
2018-10-23 modbus与rs485的关系_modbus与rs485的区别和联系
2018-10-23 UART\RS232与RS485的关系
2018-10-23 RS-485总线通信协议
2017-10-23 YOLO2 (2) 测试自己的数据
2017-10-23 Ubuntu 14.04服务器配置 (1) 安装和配置