09 2024 档案

摘要:参考自RoPE旋转位置编码深度解析:理论推导、代码实现、长度外推 - 知乎 (zhihu.com) 位置编码: 1.绝对, 直接加到输入中. 2.相对,加在Attn的内积之前, 外推性能强。 ROPE:对Attn的K和V矩阵做ROPE 二维场景: 对于一个二维向量 : 偶数维的可以用拆成若干个2维的 阅读全文
posted @ 2024-09-25 11:41 老八蜜汁小憨包 阅读(47) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示