摘要: 1.原理 ALibi( ATTENTION WITH LINEAR BIASES) 也是一种位置编码, 与在词向量中添加位置信息不同。ALibi不对词向量进行任何操作,而是在Query和Key点积之后添加一个静态的、非学习型的偏差: \(softmax(Q_iK^T + m * [-(i - 1), 阅读全文
posted @ 2024-12-21 16:40 博客员626 阅读(1) 评论(0) 推荐(0) 编辑