GRU

在神经网络发展的过程中，几乎所有关于LSTM的文章中对于LSTM的结构都会做出一些变动，也称为LSTM的变体。其中变动较大的是门控循环单元（Gated Recurrent Units），也就是较为流行的GRU。GRU是2014年由Cho, et al在文章《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》中提出的，某种程度上GRU也是对于LSTM结构复杂性的优化。LSTM能够解决循环神经网络因长期依赖带来的梯度消失和梯度爆炸问题，但是LSTM有三个不同的门，参数较多，训练起来比较困难。GRU只含有两个门控结构，且在超参数全部调优的情况下，二者性能相当，但是GRU结构更为简单，训练样本较少，易实现。

GRU在LSTM的基础上主要做出了两点改变：

（1）GRU只有两个门。GRU将LSTM中的输入门和遗忘门合二为一，称为更新门（update gate），上图中的

（2）取消进行线性自更新的记忆单元（memory cell），而是直接在隐藏单元中利用门控直接进行线性自更新。GRU的逻辑图如上图所示。

GRU的公式化表达如下：

{z_t} = \sigma ({W_z} \cdot [{h_{t - 1}},{x_t}])\] \[{r_t} = \sigma ({W_r} \cdot [{h_{t - 1}},{x_t}])\] \[\tilde h = tanh(W \cdot [{r_t} \odot {h_{t - 1}},{x_t}])\] \[{h_t} = (1 - {z_t}) \odot {h_{t - 1}} + {z_t} \odot {\tilde h_{t - 1}}

下面我们将分步介绍GRU的单元传递过程，公式也会在接下来的章节进行详细的介绍：

上图是带有门控循环单元的循环神经网络。

1.更新门

在时间步 t，我们首先需要使用以下公式计算更新门

\[{z_t} = \sigma ({W_z} \cdot [{h_{t - 1}},{x_t}])\]

其中

更新门帮助模型决定到底要将多少过去的信息传递到未来，或到底前一时间步和当前时间步的信息有多少是需要继续传递的。这一点非常强大，因为模型能决定从过去复制所有的信息以减少梯度消失的风险。

2.重置门

本质上来说，重置门主要决定了到底有多少过去的信息需要遗忘，我们可以使用以下表达式计算：\[{r_t} = \sigma ({W_r} \cdot [{h_{t - 1}},{x_t}])\]

如前面更新门所述，

3. 当前记忆内容

现在我们具体讨论一下这些门控到底如何影响最终的输出。在重置门的使用中，新的记忆内容将使用重置门储存过去相关的信息，它的计算表达式为： \[\tilde h = tanh(W \cdot [{r_t} \odot {h_{t - 1}},{x_t}])\]

输入

计算重置门

将这两部分的计算结果相加再投入双曲正切激活函数中。该计算过程可表示为：

4. 当前时间步的最终记忆

在最后一步，网络需要计算

{h_t} = (1 - {z_t}) \odot {h_{t - 1}} + {z_t} \odot {\tilde h_{t - 1}}

门控循环单元不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个单元，因此它利用全部信息而避免了梯度消失问题。

参考文献

Chung, J., Gulcehre, C., Cho, K., & Bengio, Y. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555.链接

posted @ 2022-08-26 17:40 xiaomin_beyonce 阅读(339) 评论(0) 收藏举报

刷新页面返回顶部

beyoncewxm

GRU

1.更新门

2.重置门

3. 当前记忆内容

4. 当前时间步的最终记忆

参考文献

公告