掩蔽自注意力
摘要:
邱锡鹏: 通过一个掩码(Mask)来阻止每个位置选择其后面的输入信息.这种方式称为掩蔽自注意力(Masked Self-Attention). 李沐: 解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽(masked)注意⼒保留了⾃回归(auto-regressive)属性,确保预测仅依赖于已 阅读全文
posted @ 2022-12-13 23:34 HBU_DAVID 阅读(488) 评论(0) 推荐(1) 编辑