掩蔽自注意力

邱锡鹏：

通过一个掩码（Mask）来阻止每个位置选择其后面的输入信息．这种方式称为掩蔽自注意力（Masked Self-Attention）．

李沐：

解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽（masked）注意⼒保留了⾃回归（auto-regressive）属性，确保预测仅依赖于已⽣成的输出词元。

Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1，如下图所示。

在使用的过程中，翻译到单词 i+1 的时候需要通过 Mask (掩盖) 操作遮盖住 i+1 之后的单词。

posted on 2022-12-13 23:34 HBU_DAVID 阅读(488) 评论(0) 编辑收藏举报

刷新页面返回顶部

Notebook