ALibi位置编码

1.原理

ALibi( ATTENTION WITH LINEAR BIASES) 也是一种位置编码, 与在词向量中添加位置信息不同。ALibi不对词向量进行任何操作,而是在Query和Key点积之后添加一个静态的、非学习型的偏差:
\(softmax(Q_iK^T + m * [-(i - 1), ..., -2, -1, 0]\),如图所示

posted @ 2024-12-21 16:40  博客员626  阅读(1)  评论(0编辑  收藏  举报