2024 年 12月 13 日随笔档案 - 博客员626

2024年12月13日

摘要： 1.背景注意力机制本身没有获取位置信息的能力，对于transformer来说"Hello world"和"world Hello"两句话中的"Hello"张量是完全相同的，即使两句话中的相同Hello可能有不同的表达含义，所以需要在输入信息中添加位置信息 2.原理 transformer中KQV都阅读全文

posted @ 2024-12-13 15:47 博客员626 阅读(8) 评论(0) 推荐(0) 编辑

公告