d2l-注意力机制

1. 注意力提示

人的注意力是有限的、有价值和稀缺的资源
受试者使用非自主性和自主性提示有选择性地引导注意力。前者基于突出性，后者则依赖于意识。

注意力机制与全连接层或汇聚层的区别在于增加的自主提示(query)。
注意力机制通过注意力汇聚是实现对值(value)的偏向性选择，其中包含查询（自主性提示）和键（非自住性提示）。
可以通过热图(heat map)对注意力进行可视化。

2. 注意力汇聚：Nadaraya-Watson 核回归

2.1 平均汇聚

平均汇聚是一种最简单的估计器

f (x) = \frac{1}{n} \sum_{i = 1}^{n} y_{i}

这个估计器的效果不佳。

2.2 非参数注意力汇聚

平均汇聚没有考虑输入 $x_{i}$ 。1964年，Nadaraya和Watson根据输入位置对输出 $y_{i}$ 进行加权：

f (x) = \sum_{i = 1}^{n} \frac{K (x - x_{i})}{\sum_{j = 1}^{n} K (x - x_{j})} y_{i}

其中， $K$ 称为核，是一种函数。

如果采用高斯核(Gaussian kernel)： $K (u) = \frac{1}{\sqrt{2 π}} e x p (- \frac{u^{2}}{2})$
带入到式子中，可以得到：

f (x) = \sum_{i = 1}^{n} s o f t m a x (- \frac{1}{2} (x - x_{i})^{2}) y_{i}

直观的理解： $x_{i}$ 越接近 $x$ ， $y_{i}$ 被分配到的注意力权重更大

可以从注意力机制框架的角度重写称为一个更通用的形式，注意力汇聚 (attention pooling)公式：

f (x) = α (x, x_{i}) y_{i}

$α (x, x_{i})$ 被称为注意力权重，权重被分配给每个对应值 $y_{i}$
对于任何查询，模型在所有键值对注意力权重都是一个有效的概率分布：
- 它们是非负的
- 总和为1

2.3 带参数注意力汇聚

非参数的Nadaraya-Watson核回归具有一致性：如果有足够的数据，模型会收敛到最优结果。

但是，现实中往往没有足量的数据，可以将可学习参数加入到注意力汇聚中，加速模型的拟合。

f (x) = \sum_{i = 1}^{n} s o f t m a x (- \frac{1}{2} ((x - x_{i}) ω)^{2}) y_{i}

3. 注意力评分函数

softmax之前的是注意力分数 score
softmax之后的是注意力权重 weight 表示概率分布
注意力汇聚输出的是加权和

假设有1个查询 $q \in R^{q}$ 和 $m$ 个键值对，其中k和v的长度分别为 $k_{i} \in R^{k}$ , $v_{i} \in R_{v}$

f (q, (k_{1}, v_{1}), . . ., (k_{m}, v_{m})) = \sum_{i = 1}^{m} α (q, k_{i}) v_{i} \in R^{v}

其中，

α (q, k_{i}) = s o f t m a x (a (q, k_{i})) = \frac{e x p (a (q, k_{i}))}{\sum_{j = 1}^{m} e x p (a (q, k_{j}))} \in R

$α$ 是注意力权重，为标量
$f$ 的输出为预测的value，长度为 $v$

本节将介绍2种注意力的计算方法：加性注意力、缩放点积注意力。

3.1 masked_softmax

为了仅在有意义的词元上作注意力汇聚，可以指定一个valid_len，在计算softmax的时候过滤掉超出范围的内容。
任何超出范围的位置都被置为0.

def masked_softmax(X, valid_lens):
    """通过在最后一个轴上掩蔽元素来执行softmax操作"""
    # X:3D张量，valid_lens:1D或2D张量
    if valid_lens is None:
        return nn.functional.softmax(X, dim=-1)
    else:
        shape = X.shape
        if valid_lens.dim() == 1:
            valid_lens = torch.repeat_interleave(valid_lens, shape[1])
        else:
            valid_lens = valid_lens.reshape(-1)
        # 最后一轴上被掩蔽的元素使用一个非常大的负值替换，从而其softmax输出为0
        X = d2l.sequence_mask(X.reshape(-1, shape[-1]), valid_lens,
                              value=-1e6)
        return nn.functional.softmax(X.reshape(shape), dim=-1)

3.2 加性注意力

当查询(query)和键(key)是长度不同的向量时，可以使用加性注意力。加性注意力的评分函数为

a (q, k) = w_{v}^{⊤} t a n h (W_{q} q + W_{k} k) \in R

其中，可学习的参数为 $W_{q} \in R^{h * q}$ , $W_{k} \in R^{h * k}$ , $w_{v} \in R^{h}$ 。

相当于将query和key拼接后输入到单隐藏层的mlp中，隐藏单元个数为h，激活函数为tanh，不使用bias。

class AdditiveAttention(nn.Module):
    """加性注意力"""
    def __init__(self, key_size, query_size, num_hiddens, dropout, **kwargs):
        super(AdditiveAttention, self).__init__(**kwargs)
        self.W_k = nn.Linear(key_size, num_hiddens, bias=False)
        self.W_q = nn.Linear(query_size, num_hiddens, bias=False)
        self.w_v = nn.Linear(num_hiddens, 1, bias=False)
        self.dropout = nn.Dropout(dropout)

    def forward(self, queries, keys, values, valid_lens):
        queries, keys = self.W_q(queries), self.W_k(keys)
        # 在维度扩展后，
        # queries的形状：(batch_size，查询的个数，1，num_hidden)
        # key的形状：(batch_size，1，“键－值”对的个数，num_hiddens)
        # 使用广播方式进行求和
        features = queries.unsqueeze(2) + keys.unsqueeze(1)
        features = torch.tanh(features)
        # self.w_v仅有一个输出，因此从形状中移除最后那个维度。
        # scores的形状：(batch_size，查询的个数，“键-值”对的个数)
        scores = self.w_v(features).squeeze(-1)
        self.attention_weights = masked_softmax(scores, valid_lens)
        # values的形状：(batch_size，“键－值”对的个数，值的维度)
        return torch.bmm(self.dropout(self.attention_weights), values)

查询、键和值的形状为（批量大小，步数或词元序列长度，特征大小），假设

查询的形状为(2, 1, 20)
键的形状为(2, 10, 2)
值的形状为(2, 10 ,4)

则注意力汇聚(attention pooling)的输出的形状为(2, 1, 4)。(batch_size, num_query, value_len)

3.3 缩放点积注意力

如果query和key的长度相同，都为 $d$ ，则可以使用缩放点积注意力，计算效率更高。

缩放点积注意力(scaled dot-product attention)评分函数：

a (q, k) = \frac{q^{⊤} k}{\sqrt{d}}

缩放点积注意力为：

s o f t m a x (\frac{q^{⊤} k}{\sqrt{d}}) V \in R^{n * v}

可以通过dropout 对模型正则化。

class DotProductAttention(nn.Module):
    """缩放点积注意力"""
    def __init__(self, dropout, **kwargs):
        super(DotProductAttention, self).__init__(**kwargs)
        self.dropout = nn.Dropout(dropout)

    # queries的形状：(batch_size，查询的个数，d)
    # keys的形状：(batch_size，“键－值”对的个数，d)
    # values的形状：(batch_size，“键－值”对的个数，值的维度)
    # valid_lens的形状:(batch_size，)或者(batch_size，查询的个数)
    def forward(self, queries, keys, values, valid_lens=None):
        d = queries.shape[-1]
        # 设置transpose_b=True为了交换keys的最后两个维度
        scores = torch.bmm(queries, keys.transpose(1,2)) / math.sqrt(d)
        self.attention_weights = masked_softmax(scores, valid_lens)
        return torch.bmm(self.dropout(self.attention_weights), values)

4. 使用注意力机制的seq2seq模型 (Bahdanau 注意力)

机器翻译中，每个生成的词可能像关于源句子中的不同的词。

之前讲的seq2seq，在每个解码步骤中都使用相同的上下文变量
Bahdanau等人提出，如果不是所有输入词元都相关，模型将仅对齐输入序列中与当前预测相关的部分。

编码器对每次词的输出作为key和value(它们是一样的)
解码器RNN对上一个词的输出是query
注意力的输出和下一个词的embedding合并进入RNN
注意力机制考验根据解码器RNN的输出来匹配到合适的编码器RNN的输出来更有效的传递信息。

编码器不变，需要修改解码器

class Seq2SeqAttentionDecoder(AttentionDecoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)
        self.attention = d2l.AdditiveAttention(
            num_hiddens, num_hiddens, num_hiddens, dropout)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(
            embed_size + num_hiddens, num_hiddens, num_layers,
            dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)

    def init_state(self, enc_outputs, enc_valid_lens, *args):
        # outputs的形状为(batch_size，num_steps，num_hiddens).
        # hidden_state的形状为(num_layers，batch_size，num_hiddens)
        outputs, hidden_state = enc_outputs
        return (outputs.permute(1, 0, 2), hidden_state, enc_valid_lens)

    def forward(self, X, state):
        # enc_outputs的形状为(batch_size,num_steps,num_hiddens).
        # hidden_state的形状为(num_layers,batch_size,
        # num_hiddens)
        enc_outputs, hidden_state, enc_valid_lens = state
        # 输出X的形状为(num_steps,batch_size,embed_size)
        X = self.embedding(X).permute(1, 0, 2)
        outputs, self._attention_weights = [], []
        for x in X:
            # query的形状为(batch_size,1,num_hiddens)
            query = torch.unsqueeze(hidden_state[-1], dim=1)
            # context的形状为(batch_size,1,num_hiddens)
            context = self.attention(
                query, enc_outputs, enc_outputs, enc_valid_lens)
            # 在特征维度上连结
            x = torch.cat((context, torch.unsqueeze(x, dim=1)), dim=-1)
            # 将x变形为(1,batch_size,embed_size+num_hiddens)
            out, hidden_state = self.rnn(x.permute(1, 0, 2), hidden_state)
            outputs.append(out)
            self._attention_weights.append(self.attention.attention_weights)
        # 全连接层变换后，outputs的形状为
        # (num_steps,batch_size,vocab_size)
        outputs = self.dense(torch.cat(outputs, dim=0))
        return outputs.permute(1, 0, 2), [enc_outputs, hidden_state,
                                          enc_valid_lens]

    @property
    def attention_weights(self):
        return self._attention_weights

训练模型

embed_size, num_hiddens, num_layers, dropout = 32, 32, 2, 0.1
batch_size, num_steps = 64, 10
lr, num_epochs, device = 0.005, 250, d2l.try_gpu()

train_iter, src_vocab, tgt_vocab = d2l.load_data_nmt(batch_size, num_steps)
encoder = d2l.Seq2SeqEncoder(
    len(src_vocab), embed_size, num_hiddens, num_layers, dropout)
decoder = Seq2SeqAttentionDecoder(
    len(tgt_vocab), embed_size, num_hiddens, num_layers, dropout)
net = d2l.EncoderDecoder(encoder, decoder)
d2l.train_seq2seq(net, train_iter, lr, num_epochs, tgt_vocab, device)

5. 自注意力和位置编码

给定词元序列 $x_{1}, x_{2}, . . ., x_{n}$ ，其中 $x_{i} \in R^{d}$ 。即序列长度为 $n$ ，每个词元的维度为 $d$ 。
自注意力输出为一个长度为 $n$ 的序列 $y_{1}, y_{2}, . . ., y_{n}$ ，其中：

y_{i} = f (x_{1}, (x_{1}, x_{1}), . . ., (x_{n}, x_{n}))

自注意力池化层将 $x_{i}$ 当作key, value, query来对序列抽取特征

5.1 CNN、RNN和self-attention的比较

	CNN	RNN	self-attention
计算复杂度	$O (k n d^{2})$	$O (n d^{2})$	$O (n^{2} d)$
并行度	$O (n)$	$O (1)$	$O (n)$
最长路径	$O (\frac{n}{k})$	$O (n)$	$O (1)$

$n$ 为序列的长度， $k$ 为CNN的窗口大小， $d$ 为词元的维度。
self-attention在处理长序列时（ $n$ 很大时），计算复杂度高。
CNN和self-attention的并行度好；RNN由于顺序操作，并行度不好。
任何的序列位置组合之间的路径越短，能更轻松地学习序列中的远距离依赖关系。

5.2 位置编码 (positional encoding)

为了使用序列的顺序信息，可以通过在输入表示中添加位置编码，来注入绝对的或相对的位置信息。
位置编码

可以通过学习得到
也可以通过公式得到固定位置编码

下面介绍的是基于正弦函数和余弦函数的固定位置编码。

假设输入 $X \in R^{n \times d}$ ，则位置编码为形状相同的矩阵，即 $P \in R^{n \times d}$ 。输入为 $X + P$ .

位置编码 $P$ 矩阵的第 $i$ 行、第 $2 j$ 列和第 $2 j + 1$ 列上的元素为：

p_{i, 2 j} = s i n (\frac{i}{10000^{2 j / d}})

p_{i, 2 j + 1} = c o s (\frac{i}{10000^{2 j / d}})

除了绝对位置信息，上述固定编码还能学习到输入序列中的相对位置信息。
给定位置偏移 $δ$ ，位置 $i + δ$ 的位置编码可以通过位置 $i$ 处的位置编码进行线性变换得到。

6. 多头注意力 (multihead attention)

给定相同的key, value, query时，我们希望基于相同的注意力机制学习到不同的行为，然后将不同的行为作为知识组合起来（如短距离依赖、长距离依赖）。
这些知识的不同来源于相同query, key, value的不同的子空间表示(representation subspaces)。

独立学习得到 $h$ 组不同的线性投影(linear projections)来变换key, value, query
将这 $h$ 组变换后的key, value, query并行地送入注意力汇聚
最后将注意力汇聚地输出拼接到一起，再送入一个全连接层

每个注意力头 $h_{i} (i = 1, . . ., h)$ 的计算方式：

h_{i} = f (W_{i}^{(q)} q, W_{i}^{(k)} k, W_{i}^{(v)} v) \in R^{p_{v}}

query, key, value的维度分别是： $d_{q}, d_{k}, d_{v}$ .
可学习参数 $W_{i}^{(q)}, W_{i}^{(k)}, W_{i}^{(v)}$ 的维度分别是 $p_{q} \times d_{q}, p_{k} \times d_{k}, p_{v} \times d_{v}$ .
$f$ 为注意力汇聚，如加性注意力、缩放点积注意力

将 $h$ 个头输出拼接(concat)之后，再通过一个全连接层，可以得到多头注意力的输出。

W_{o} [\begin{matrix} h_{1} \\ h_{2} \\ . . . \\ h_{h} \end{matrix}] \in R^{p_{o}}

通常选用缩放点积注意力作为注意力头
为了并行计算 $h$ 个头，全连接层的维度通常选择为 $p_{q} \cdot h = p_{k} \cdot h = p_{v} \cdot h = p_{o}$ .
在下面的实现中，通过num_hiddens指定 $p_{o}$

class MultiHeadAttention(nn.Module):
    """多头注意力"""
    def __init__(self, key_size, query_size, value_size, num_hiddens,
                 num_heads, dropout, bias=False, **kwargs):
        super(MultiHeadAttention, self).__init__(**kwargs)
        self.num_heads = num_heads
        self.attention = d2l.DotProductAttention(dropout)
        self.W_q = nn.Linear(query_size, num_hiddens, bias=bias)
        self.W_k = nn.Linear(key_size, num_hiddens, bias=bias)
        self.W_v = nn.Linear(value_size, num_hiddens, bias=bias)
        self.W_o = nn.Linear(num_hiddens, num_hiddens, bias=bias)

    def forward(self, queries, keys, values, valid_lens):
        # queries，keys，values的形状:
        # (batch_size，查询或者“键－值”对的个数，num_hiddens)
        # valid_lens　的形状:
        # (batch_size，)或(batch_size，查询的个数)
        # 经过变换后，输出的queries，keys，values　的形状:
        # (batch_size*num_heads，查询或者“键－值”对的个数，
        # num_hiddens/num_heads)
        queries = transpose_qkv(self.W_q(queries), self.num_heads)
        keys = transpose_qkv(self.W_k(keys), self.num_heads)
        values = transpose_qkv(self.W_v(values), self.num_heads)

        if valid_lens is not None:
            # 在轴0，将第一项（标量或者矢量）复制num_heads次，
            # 然后如此复制第二项，然后诸如此类。
            valid_lens = torch.repeat_interleave(
                valid_lens, repeats=self.num_heads, dim=0)

        # output的形状:(batch_size*num_heads，查询的个数，
        # num_hiddens/num_heads)
        output = self.attention(queries, keys, values, valid_lens)

        # output_concat的形状:(batch_size，查询的个数，num_hiddens)
        output_concat = transpose_output(output, self.num_heads)
        return self.W_o(output_concat)

def transpose_qkv(X, num_heads):
    """为了多注意力头的并行计算而变换形状"""
    # 输入X的形状:(batch_size，查询或者“键－值”对的个数，num_hiddens)
    # 输出X的形状:(batch_size，查询或者“键－值”对的个数，num_heads，
    # num_hiddens/num_heads)
    X = X.reshape(X.shape[0], X.shape[1], num_heads, -1)

    # 输出X的形状:(batch_size，num_heads，查询或者“键－值”对的个数,
    # num_hiddens/num_heads)
    X = X.permute(0, 2, 1, 3)

    # 最终输出的形状:(batch_size*num_heads,查询或者“键－值”对的个数,
    # num_hiddens/num_heads)
    return X.reshape(-1, X.shape[2], X.shape[3])

def transpose_output(X, num_heads):
    """逆转transpose_qkv函数的操作"""
    X = X.reshape(-1, num_heads, X.shape[1], X.shape[2])
    X = X.permute(0, 2, 1, 3)
    return X.reshape(X.shape[0], X.shape[1], -1)

最终输出的形状为(batch_size, num_queries, num_hiddens).

posted @ 2025-02-18 13:50 Frank23 阅读(8) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· d2l-Transformer

· d2l-循环神经网络

· 注意力机制

· Pytorch-Vanilla Transformer的实现

· 【动手学深度学习】学习笔记

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

Keep moving.