RNN算法

机器学习算法完整版见fenghaootong-github

循环神经网络原理（RNN）

RNN是在自然语言处理领域中最先被用起来的
语言模型就是这样的东西：给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。
简单的循环神经网络由输入层、一个隐藏层和一个输出层组成：

这里写图片描述

x是一个向量，它表示输入层的值（这里面没有画出来表示神经元节点的圆圈）；
s是一个向量，它表示隐藏层的值（这里隐藏层面画了一个节点，这一层其实是多个节点，节点数与向量s的维度相同）；
U是输入层到隐藏层的权重矩阵；
o也是一个向量，它表示输出层的值；
V是隐藏层到输出层的权重矩阵。
循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x，还取决于上一次隐藏层的值s。
权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。

展开后:

这里写图片描述

o t = g (V s t)

s t = f (U x t + W s t - 1)

f,g都是激活函数
第一个式子是全连接层，第二个式子是循环层
循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

$o_{t} = g (V s_{t}) = g (V f (U x_{t} + W s_{t - 1})) = g (V f (U x_{t} + W f (U x_{t - 1} + W s_{t - 2}))) = g (V f (U x_{t} + W f (U x_{t - 1} + W f (U x_{t - 2} + W s_{t - 3})))) = g (V f (U x_{t} + W f (U x_{t - 1} + W f (U x_{t - 2} + W f (U x_{t - 3} + \dots)))))$

循环神经网络的训练

前向计算每个神经元的输出值 $a_{j}$ （表示网络的第j个神经元，以下同）；
反向计算每个神经元的误差项 $σ_{j} ， σ_{j}$ 在有的文献中也叫做敏感度(sensitivity)。它实际上是网络的损失函数 $E_{d}$ 对神经元加权输入的偏导数
计算每个神经元连接权重wi,j的梯度（ wi,j表示从神经元i连接到神经元j的权重）
- 最后，根据梯度下降法则更新每个权重即可。