自注意力中的不同的掩码介绍以及他们是如何工作的?

在研究自注意力时，有很多的名词需要我们着重的关注，比如填充掩码，前瞻掩码等等，但网上没有太多注意力掩码的教程和它是如何工作的信息，另外还有以下的细节需要详细的解释：

所以本篇文章将通过写出矩阵来查看这些问题的细节。这样可以对掩码的工作原理有更好的了解。除此以外还可以连接到线性层是如何跨二维工作的，这样可以解决上面第三点的疑问。

问题定义

让我们从一个有 4 个单词的矩阵 X 开始。当这些词被转换成它们的令牌嵌入，每个令牌的嵌入大小将是 3 个值。例如下面是我们的句子：

“a b c D”

现在让我们把这些词变成令牌。

向量a b c D各有3个分量，这个序列本质上是由4个令牌符号组成的。每个令牌是3个值的向量。我们把这些符号变成一个矩阵X。

X是由向量a、b、c和D组成的4 × 3矩阵这是我们想要用自注意力来转化的矩阵。

完整文章：

posted @ 2022-10-12 13:01 deephub 阅读(103) 评论(0) 收藏举报

刷新页面返回顶部