2022年12月13日

掩蔽自注意力

摘要: 邱锡鹏: 通过一个掩码(Mask)来阻止每个位置选择其后面的输入信息.这种方式称为掩蔽自注意力(Masked Self-Attention). 李沐: 解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽(masked)注意⼒保留了⾃回归(auto-regressive)属性,确保预测仅依赖于已 阅读全文

posted @ 2022-12-13 23:34 HBU_DAVID 阅读(459) 评论(0) 推荐(1) 编辑

Transformer 必备知识点

摘要: NNDL 学习笔记 transformer:基于多头自注意力的序列到序列的模型 前馈神经网络 全连接 ResNet残差连接 层归一化 Softmax 编码器-解码器 注意力机制 自注意力模型 多头自注意力 掩蔽自注意力:通过一个掩码(Mask)来阻止每个位置选择其后面的输入信息。掩蔽自注意力 - H 阅读全文

posted @ 2022-12-13 20:49 HBU_DAVID 阅读(125) 评论(0) 推荐(0) 编辑

Self-Attention:Learning QKV step by step

摘要: 邱锡鹏 NNDL 学习笔记 学习自注意力模型不难,研究透彻还是需要花点功夫。 这张图赏心悦目,看上去并不复杂,但其中的细节还需慢慢体会。 1. 为了提高模型能力,自注意力模型经常采用查询-键-值(Query-Key-Value,QKV)模式. 怎么就提高模型能力了呢?为什么用QKV就能提高? NND 阅读全文

posted @ 2022-12-13 12:39 HBU_DAVID 阅读(3451) 评论(0) 推荐(0) 编辑

导航