掩蔽自注意力
邱锡鹏:
通过一个掩码(Mask)来阻止每个位置选择其后面的输入信息.这种方式称为掩蔽自注意力(Masked Self-Attention).
李沐:
解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽(masked)注意⼒保留了⾃回归(auto-regressive)属性,确保预测仅依赖于已⽣成的输出词元。
Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1,如下图所示。
在使用的过程中,翻译到单词 i+1 的时候需要通过 Mask (掩盖) 操作遮盖住 i+1 之后的单词。