机器学习——通过时间反向传播

我们在 4.7节中描述了多层感知机中的前向与反向传播及相关的计算图。循环神经网络中的前向传播相对简单。 通过时间反向传播（backpropagation through time，BPTT） (Werbos, 1990)实际上是循环神经网络中反向传播技术的一个特定应用。它要求我们将循环神经网络的计算图一次展开一个时间步，以获得模型变量和参数之间的依赖关系。然后，基于链式法则，应用反向传播来计算和存储梯度。由于序列可能相当长，因此依赖关系也可能相当长。例如，某个1000个字符的序列，其第一个词元可能会对最后位置的词元产生重大影响。这在计算上是不可行的（它需要的时间和内存都太多了），并且还需要超过1000个矩阵的乘积才能得到非常难以捉摸的梯度。这个过程充满了计算与统计的不确定性。在下文中，我们将阐明会发生什么以及如何在实践中解决它们。

循环神经网络的梯度分析

完全计算

然而，这样的计算非常缓慢，并且可能会发生梯度爆炸，因为初始条件的微小变化就可能会对结果产生巨大的影响。也就是说，我们可以观察到类似于蝴蝶效应的现象，即初始条件的很小变化就会导致结果发生不成比例的变化。这对于我们想要估计的模型而言是非常不可取的。毕竟，我们正在寻找的是能够很好地泛化高稳定性模型的估计器。因此，在实践中，这种方法几乎从未使用过。

截断时间步

随机截断

比较策略

通过时间反响传播的细节

总结

“通过时间反向传播”仅仅适用于反向传播在具有隐状态的序列模型。
截断是计算方便性和数值稳定性的需要。截断包括：规则截断和随机截断。
矩阵的高次幂可能导致神经网络特征值的发散或消失，将以梯度爆炸或梯度消失的形式表现。
为了计算的效率，“通过时间反向传播”在计算期间会缓存中间值。

posted @ 2023-11-12 16:05 Yohoc 阅读(121) 评论(0) 收藏举报

刷新页面返回顶部

Yohoc

机器学习——通过时间反向传播

公告