自注意力中的不同的掩码介绍以及他们是如何工作的?

在研究自注意力时,有很多的名词需要我们着重的关注,比如填充掩码,前瞻掩码等等,但网上没有太多注意力掩码的教程和它是如何工作的信息,另外还有以下的细节需要详细的解释:

  • 为什么要对多个层应用注意力掩码?、
  • 为什么不沿键和查询应用注意力掩码?
  • 键、查询和值权重是否混淆了原始矩阵的序列顺序?

所以本篇文章将通过写出矩阵来查看这些问题的细节。这样可以对掩码的工作原理有更好的了解。除此以外还可以连接到线性层是如何跨二维工作的,这样可以解决上面第三点的疑问。

问题定义

让我们从一个有 4 个单词的矩阵 X 开始。当这些词被转换成它们的令牌嵌入,每个令牌的嵌入大小将是 3 个值。例如下面是我们的句子:

“a b c D”

现在让我们把这些词变成令牌。

向量a b c D各有3个分量,这个序列本质上是由4个令牌符号组成的。每个令牌是3个值的向量。我们把这些符号变成一个矩阵X。

X是由向量a、b、c和D组成的4 × 3矩阵这是我们想要用自注意力来转化的矩阵。

完整文章:

https://avoid.overfit.cn/post/1042640faa8249da92e405db1cbc3738

posted @ 2022-10-12 13:01  deephub  阅读(39)  评论(0编辑  收藏  举报