2022 年 12月 13 日随笔档案 - HBU_DAVID

掩蔽自注意力

摘要：邱锡鹏：通过一个掩码（Mask）来阻止每个位置选择其后面的输入信息．这种方式称为掩蔽自注意力（Masked Self-Attention）．李沐：解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽（masked）注意⼒保留了⾃回归（auto-regressive）属性，确保预测仅依赖于已阅读全文

posted @ 2022-12-13 23:34 HBU_DAVID 阅读(488) 评论(0) 推荐(1) 编辑

Transformer 必备知识点

摘要： NNDL 学习笔记 transformer：基于多头自注意力的序列到序列的模型前馈神经网络全连接 ResNet残差连接层归一化 Softmax 编码器-解码器注意力机制自注意力模型多头自注意力掩蔽自注意力：通过一个掩码（Mask）来阻止每个位置选择其后面的输入信息。掩蔽自注意力 - H 阅读全文

posted @ 2022-12-13 20:49 HBU_DAVID 阅读(136) 评论(0) 推荐(0) 编辑

Self-Attention：Learning QKV step by step

摘要：邱锡鹏 NNDL 学习笔记学习自注意力模型不难，研究透彻还是需要花点功夫。这张图赏心悦目，看上去并不复杂，但其中的细节还需慢慢体会。 1. 为了提高模型能力，自注意力模型经常采用查询-键-值（Query-Key-Value，QKV）模式. 怎么就提高模型能力了呢？为什么用QKV就能提高？ NND 阅读全文

posted @ 2022-12-13 12:39 HBU_DAVID 阅读(3625) 评论(0) 推荐(0) 编辑

Notebook

掩蔽自注意力

Transformer 必备知识点

Self-Attention：Learning QKV step by step

导航