摘要: 通过 pytorch 去构建一个 transformer 的框架 不是导包,不是调包侠 注意力机制是一个很宽泛(宏大)的一个概念,QKV 相乘就是注意力,但是他没有规定 QKV是怎么来的 通过一个查询变量 Q,去找到 V 里面比较重要的东西 假设 K==V,然后 QK 相乘求相似度A,然后 AV 相 阅读全文
posted @ 2022-07-24 10:42 B站-水论文的程序猿 阅读(4607) 评论(0) 推荐(0) 编辑