185 注意力模型

我们利用 $GRU$ 或者 $LSTM$ 构建一个双向循环神经网络如下

然后预测的时候我们使用普通的RNN，但是这个RNN的输入取决于源句子的每一个单词的加权和。我们用 $y$ 表示预测的句子， $a$ 表示输入的句子，那么也就是说我们定义 $α^{⟨ t, t^{^{'}} ⟩}$ 为 $y^{⟨ t ⟩}$ 应该对 $a^{⟨ t^{^{'}} ⟩}$ 给予的“注意力”权重（由于这里使用的是双向神经网络，于是有 $a^{⟨ t^{^{'}} ⟩} = ({\vec{a}}^{⟨ t^{^{'}} ⟩}, {\overset{\leftarrow}{a}}^{⟨ t^{^{'}} ⟩})$ ），且满足 $\sum_{t^{^{'}}} α^{⟨ t, t^{^{'}} ⟩} = 1$ ，示意图如下

其中 $c^{⟨ t ⟩} = \sum_{t^{^{'}}} α^{⟨ t, t^{^{'}} ⟩} a^{t^{^{'}}}$
那么怎么学习注意力权重呢？实际上，如下

那么 $e^{⟨ t, t^{^{'}} ⟩}$ 跟什么有关呢？不难想到，跟RNN的上一时间步的隐状态 $s^{⟨ t - 1 ⟩}$ 和输入的当前时间步单词 $a^{⟨ t^{^{'}} ⟩}$ 有关，但是我们不知道确切的函数，此时我们用一个小型神经网络去学习就好了。如下

这就让注意力机制有了一个缺点，就是运行该算法需要二次时间或者二次成本（注意力权重参数个数等于输入句子的长度乘以输出句子的长度
可以画出热力图如下

不难看出，相对应的输入和输出单词的注意力权重很高