1001 Attention 和 Self-Attention 的区别（还不能区分我就真的无能为力了）

通过 pytorch 去构建一个 transformer 的框架

不是导包，不是调包侠

注意力机制是一个很宽泛（宏大）的一个概念，QKV 相乘就是注意力，但是他没有规定 QKV是怎么来的

通过一个查询变量 Q，去找到 V 里面比较重要的东西

假设 K==V，然后 QK 相乘求相似度A，然后 AV 相乘得到注意力值Z，这个 Z 就是 V 的另外一种形式的表示

Q 可以是任何一个东西，V 也是任何一个东西， K往往是等同于 V 的（同源），K和 V 不同源不相等可不可以

他没有规定 QKV 怎么来，他只规定 QKV 怎么做

注意力机制

自注意力机制，特别狭隘，属于注意力机制的，注意力机制包括自注意力机制的

本质上 QKV 可以看做是相等的

对于一个词向量（不一定准确），做的是空间上的对应，乘上了参数矩阵，依然代表 X

不仅规定了 QKV 同源，而且固定了 QKV 的做法

Q 和 V 不同源，但是 K 和 V 同源

Q 和 V 同源，Q 和 K 不同源

Q 必须为 1，K 和 V 不同源

posted @ 2022-07-24 10:42 B站-水论文的程序猿阅读(6860) 评论(0) 收藏举报

刷新页面返回顶部