掩蔽自注意力
邱锡鹏:
通过一个掩码(Mask)来阻止每个位置选择其后面的输入信息.这种方式称为掩蔽自注意力(Masked Self-Attention).
李沐:
解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽(masked)注意⼒保留了⾃回归(auto-regressive)属性,确保预测仅依赖于已⽣成的输出词元。
Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1,如下图所示。
在使用的过程中,翻译到单词 i+1 的时候需要通过 Mask (掩盖) 操作遮盖住 i+1 之后的单词。

分类:
Deep Learning
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律