1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)
通过 pytorch 去构建一个 transformer 的框架
不是导包,不是调包侠
注意力机制是一个很宽泛(宏大)的一个概念,QKV 相乘就是注意力,但是他没有规定 QKV是怎么来的
通过一个查询变量 Q,去找到 V 里面比较重要的东西
假设 K==V,然后 QK 相乘求相似度A,然后 AV 相乘得到注意力值Z,这个 Z 就是 V 的另外一种形式的表示
Q 可以是任何一个东西,V 也是任何一个东西, K往往是等同于 V 的(同源),K和 V 不同源不相等可不可以
他没有规定 QKV 怎么来,他只规定 QKV 怎么做
注意力机制
自注意力机制
自注意力机制,特别狭隘,属于注意力机制的,注意力机制包括自注意力机制的
本质上 QKV 可以看做是相等的
对于一个词向量(不一定准确),做的是空间上的对应,乘上了参数矩阵,依然代表 X
不仅规定了 QKV 同源,而且固定了 QKV 的做法
交叉注意力机制
Q 和 V 不同源,但是 K 和 V 同源
cyd 注意力机制
Q 和 V 同源,Q 和 K 不同源
xxx 注意力机制
Q 必须为 1,K 和 V 不同源