掩蔽自注意力

邱锡鹏:

通过一个掩码(Mask)来阻止每个位置选择其后面的输入信息.这种方式称为掩蔽自注意力(Masked Self-Attention).
李沐:
解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽(masked)注意⼒保留了⾃回归(auto-regressive)属性,确保预测仅依赖于已⽣成的输出词元

Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1,如下图所示。
在使用的过程中,翻译到单词 i+1 的时候需要通过 Mask (掩盖) 操作遮盖住 i+1 之后的单词

 

 

posted on   HBU_DAVID  阅读(563)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律

导航

点击右上角即可分享
微信分享提示