// // // //

2022年9月30日

摘要: Scaled Dot-Product Attention 在实际应用中,经常会用到 Attention 机制,其中最常用的是 Scaled Dot-Product Attention,它是通过计算query和key之间的点积 来作为 之间的相似度。 Scaled 指的是 Q和K计算得到的相似度 再经 阅读全文
posted @ 2022-09-30 08:29 努力的孔子 阅读(2579) 评论(0) 推荐(0) 编辑
 
摘要: 所谓自注意力机制就是通过某种运算来直接 计算得到句子 在编码过程中每个位置上的注意力权重;然后再以权重和的形式来计算得到整个句子的隐含向量表示。 自注意力机制的缺陷就是:模型在对当前位置的信息进行编码时,会过度的将注意力集中于自身的位置, 因此作者提出了通过多头注意力机制来解决这一问题。 实验证明, 阅读全文
posted @ 2022-09-30 08:28 努力的孔子 阅读(7525) 评论(0) 推荐(0) 编辑
 
摘要: 自注意力与注意力机制的区别在于,自注意力不依赖于外部信息,其 q k v 均来自内部,或者说来自输入 x, 就像我们看到一张狗的照片,尽管照片中有其他物体,但人类能自动聚焦到狗的身上, 自注意力更擅长捕捉内部相关性,能更好解决长距离依赖问题。 原理 首先,初始化 Embedding 和 Wq,Wk, 阅读全文
posted @ 2022-09-30 08:28 努力的孔子 阅读(816) 评论(0) 推荐(0) 编辑