摘要: 1.背景 注意力机制本身没有获取位置信息的能力,对于transformer来说"Hello world"和"world Hello"两句话中的"Hello"张量是完全相同的,即使两句话中的相同Hello可能有不同的表达含义,所以需要在输入信息中添加位置信息 2.原理 transformer中KQV都 阅读全文
posted @ 2024-12-13 15:47 博客员626 阅读(8) 评论(0) 推荐(0) 编辑