循环神经网络

一、RNN

（1）假设$x^{(t)}$为$t$时刻系统的外部驱动信号，则动态系统的状态为$h^{(t)}=f(h^{(t-1)},x^{(t)};\theta)$

（2）当训练RNN根据过去预测未来时，网络通常要讲$h^{(t)}$作为过去序列信息的一个有损的representation，因为它使用一个固定长度的向量$h^{(t)}$来表达任意长的序列$\{x^{(1)},...,x^{(t-1)}\}$

根据不同的训练准则，representation可能会有选择地保留过去序列的某些部分，如attention机制。

（3）网络的初始状态$h^{(0)}$的设置有两种方式：

固定为全0，模型的反向传播不需要考虑$h^{(0)}$，因为全0导致对应参数的梯度贡献也为0。
使用上一个样本的最后一个状态：$h_{(i+1)}^{(0)}=h_i^{(\tau_i)}$，这种场景通常是样本之间存在连续的关系（如：样本分别代表一篇小说中的每个句子），并且样本之间没有发生混洗的情况。此时，后一个样本的初始状态和前一个样本的最后状态可以认为保持连续性。

（4）展开图的两个主要优点：

这些优点直接导致了：

根据输入序列的长度，RNN网络模式可以划分为：输入序列长度为0、输入序列长度为1、输入序列为$\tau$。

posted @ 2019-09-30 15:41 nxf_rabbit75 阅读(255) 评论(0) 编辑收藏举报

刷新页面返回顶部