2022 年 9月 30 日随笔档案 - 努力的孔子

注意力机制【5】Scaled Dot-Product Attention 和 mask attention

摘要： Scaled Dot-Product Attention 在实际应用中，经常会用到 Attention 机制，其中最常用的是 Scaled Dot-Product Attention，它是通过计算query和key之间的点积来作为之间的相似度。 Scaled 指的是 Q和K计算得到的相似度再经阅读全文

posted @ 2022-09-30 08:29 努力的孔子阅读(2579) 评论(0) 推荐(0) 编辑

注意力机制【4】-多头注意力机制

摘要：所谓自注意力机制就是通过某种运算来直接计算得到句子在编码过程中每个位置上的注意力权重；然后再以权重和的形式来计算得到整个句子的隐含向量表示。自注意力机制的缺陷就是：模型在对当前位置的信息进行编码时，会过度的将注意力集中于自身的位置，因此作者提出了通过多头注意力机制来解决这一问题。实验证明，阅读全文

posted @ 2022-09-30 08:28 努力的孔子阅读(7525) 评论(0) 推荐(0) 编辑

注意力机制【3】-Self Attention

摘要：自注意力与注意力机制的区别在于，自注意力不依赖于外部信息，其 q k v 均来自内部，或者说来自输入 x，就像我们看到一张狗的照片，尽管照片中有其他物体，但人类能自动聚焦到狗的身上，自注意力更擅长捕捉内部相关性，能更好解决长距离依赖问题。原理首先，初始化 Embedding 和 Wq，Wk，阅读全文

posted @ 2022-09-30 08:28 努力的孔子阅读(816) 评论(0) 推荐(0) 编辑

2022年9月30日

导航