nlp RNN

2022-04-05 14:58 jym蒟蒻阅读(155) 评论(0) 编辑收藏举报

RNN（Recurrent Neural Network）循环神经网络。

类比血液在体内循环，从过去一直被更新到现在。

RNN具有环路。这个环路可以使数据不断循环。通过数据的循环，RNN一边记住过去的数据，一边更新到最新的数据。

RNN层的循环结构

RNN层的循环结构和它的展开如下图所示。下面的多个RNN层都是同一个层；输出分叉了，也就是说同一个输出被复制了，其中的一个输出将成为自身的输入。

在这里插入图片描述

xt是t时刻的输入数据，输入t时刻的RNN层。各个时刻的RNN层接收t时刻的输入数据和前一个RNN层的输出数据。

RNN的隐藏状态

ht：hidden state，隐藏状态。

ht可由下式表示。

在这里插入图片描述

Wx是将输入x转化为输出h的权重；Wh是将前一个RNN层的输出转化为当前时刻的输出的权重；b是偏置。

ht-1和xt都是行向量。

式子右边先进行矩阵乘积运算，然后用双曲正切函数变换他们的和，得到时刻t的输出ht，这个ht向上传到另一个层，而且还向右传到自己的RNN层。

RNN的h存储的是状态，时间每前进一步，就以上式的形式被更新。

BPTT

将RNN层展开后，就可以视为在水平方向上延伸的神经网络。

RNN可以使用误差反向传播法：Backpropagation Through Time（基于时间的反向传播），简称BPTT。

BPTT缺陷：基于BPTT求梯度，要在内存中保存各个时刻RNN层的中间数据，随着时序数据变长，计算机的内存使用量(和计算量)会增加，而且随着层变多，梯度逐渐变小，梯度将无法向前一层传递。

解决办法：处理长时序数据时，将时间轴方向上过长的网络在合适的位置进行截断，创建多个小型网络，然后对截出来的小型网络执行误差反向传播法。也就是Truncated BPTT(截断的 BPTT)方法。

Truncated BPTT

Truncated BPTT：只是网络的反向传播的连接被截断，正向传播的连接依然被维持。

将反向传播的连接中的某一段RNN层称为块。以各个块为单位完成误差反向传播法。

进行RNN的学习时，必须考虑到正向传播之间是有关联的，必须按顺序输入数据。

处理长度为1000的时序数据，使学习以10个RNN层为单位进行。

在这里插入图片描述

正向传播的计算需要前一个块最后的隐藏状态。如下图需h9。

在这里插入图片描述

Truncated BPTT + mini-batch

上面的是一次处理一个数据，一次处理x个数据就是所谓的批处理。

如果批大小为2：

因为进行RNN的学习时，正向传播之间是有关联的，必须按顺序输入数据。

在输入数据的开始位置，需要在各个批次中进行偏移。所谓的偏移，就是在进行mini-batch学习时，平移各批次输入数据的开始位置，按顺序输入。

在这里插入图片描述

第1个样本数据从头开始按顺序输入，第2个数据从第500个数据开始按顺序输入。开始位置平移了500。

批次的第1个元素是x0…x9，第2个元素是x500…x509

在这里插入图片描述

Time RNN

实现Truncated BPTT RNN，只需创建一个在水平方向上长度固定的网络序列。

在这里插入图片描述

目标神经网络接收长度为T的时序数据。

输出各个时刻的T个隐藏状态。

Time RNN层：将展开循环后的层视为一个层。如下所示。

在这里插入图片描述

进行Time RNN层中的单步处理的层称为RNN 层；一次处理T步的层称为Time RNN层。

整体处理时序数据的层以Time作为开头命名。

实现RNN的话，首先，实现单步处理的RNN类；然后，利用这个RNN类，实现进行T步处理的TimeRNN类。

RNN层实现

RNN 正向传播的数学式：

Wx是将输入x转化为输出h的权重；Wh是将前一个RNN层的输出转化为当前时刻的输出的权重；b是偏置。

ht-1和xt都是行向量。

在这里插入图片描述

假设批大小为N，输入向量xt维数是D，隐藏状态向量维数是H。

在这里插入图片描述

class RNN:
    def __init__(self, Wx, Wh, b):#接收两个权重参数和一个偏置参数
        self.params = [Wx, Wh, b]#参数设置为列表类型的成员变量params
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]#以各个参数对应的形状初始化梯度，保存在grads中
        self.cache = None #cache是反向传播时要用到的中间数据

    def forward(self, x, h_prev):#正向传播接收两个参数，从下方输入的x，从左边输入的 h_prev
        Wx, Wh, b = self.params
        t = np.dot(h_prev, Wh) + np.dot(x, Wx) + b#按照公式来
        h_next = np.tanh(t)#当前时刻的RNN层的输出是h_next

        self.cache = (x, h_prev, h_next)
        return h_next

在这里插入图片描述

    def backward(self, dh_next):#RNN 的反向传播
        Wx, Wh, b = self.params
        x, h_prev, h_next = self.cache#取中间数据

        dt = dh_next * (1 - h_next ** 2)#tanh反向传播
        db = np.sum(dt, axis=0)#加法层反向传播，将上游传来的导数原封不动传给下游
        dWh = np.dot(h_prev.T, dt)#乘法层反向传播，将上游传过来的导数dt乘正向传播的翻转值，然后传给下游
        dh_prev = np.dot(dt, Wh.T)
        dWx = np.dot(x.T, dt)
        dx = np.dot(dt, Wx.T)

        self.grads[0][...] = dWx#保存梯度
        self.grads[1][...] = dWh
        self.grads[2][...] = db

        return dx, dh_prev

Time RNN层实现

Time RNN层由T个RNN层构成。

之前在Truncated BPTT里面提到了块，将反向传播的连接中的某一段RNN层称为块。以各个块为单位完成误差反向传播法。

Time RNN 层将隐藏状态h保存在成员变量中，以在块之间继承隐藏状态。如下图所示。

在这里插入图片描述

下面的stateful参数为True 时，Time RNN层维持隐藏状态。下一次调用Time RNN层的forward() 方法时，成员变量h将被继续使用。

成员变量h中存放最后一个RNN层的隐藏状态。

stateful 为 False时，每次调用Time RNN层的forward()时，第一个RNN层的隐藏状态都会被初始化为零矩阵。stateful为False的情况下，成员变量h将被重置为零向量。

class TimeRNN:
    def __init__(self, Wx, Wh, b, stateful=False):#参数有权重、偏置和stateful，用stateful这个参数来控制是否继承隐藏状态。
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.layers = None#layers 在列表中保存多个 RNN 层

        self.h, self.dh = None, None#h保存调用forward()方法时的最后一个 RNN 层的隐藏状态；dh保存调用backward()时，传给前一个块的隐藏状态的梯度
        self.stateful = stateful

    def forward(self, xs):#参数是获取的输入xs，xs包含T个时序数据
        Wx, Wh, b = self.params
        N, T, D = xs.shape#批大小是 N，输入向量的维数是 D，xs形状为(N,T,D)
        D, H = Wx.shape

        self.layers = []
        hs = np.empty((N, T, H), dtype='f')#为输出准备一个容器

        if not self.stateful or self.h is None:#首次调用时，self.h 为 None；或者stateful=False，不继承隐藏状态
            self.h = np.zeros((N, H), dtype='f')#RNN 层的隐藏状态 h 由所有元素均为 0 的矩阵初始化

        for t in range(T):#在T次 for 循环中，生成 RNN 层
            layer = RNN(*self.params)
            self.h = layer.forward(xs[:, t, :], self.h)#调用正向传播，for运行完，成员变量 h 中将存放最后一个 RNN 层的隐藏状态
            hs[:, t, :] = self.h#计算各个时刻RNN层的隐藏状态，并存放在 hs 的对应时刻(索引)中
            self.layers.append(layer)#将生成的RNN层添加到成员变量 layers 中

        return hs
    
    
    def set_state(self, h):#设定 Time RNN 层的隐藏状态
        self.h = h

    def reset_state(self):#重设隐藏状态
        self.h = None

对于Time RNN反向传播，上游(输出侧的层)传来的梯度为dhs，流向下游的梯度为dxs，将流向上一时刻的隐藏状态的梯度存放在成员变量dh中。

在这里插入图片描述

对于里面的RNN层。在正向传播存在分叉的情况下，在反向传播时各梯度将被求和。在反向传播时，流向RNN层的是求和后的梯度。

dx, dh = layer.backward(dhs[:, t, :] + dh)#dx是各个时刻的梯度，这里面流向 RNN 层的是求和后的梯度

Time RNN层中有多个RNN层。这些RNN层使用相同的权重。Time RNN 层最终权重梯度是各个RNN层的权重梯度之和。

            for i, grad in enumerate(layer.grads):
                grads[i] += grad#权重参数，要求各个RNN层的权重梯度的和

反向传播代码：

    def backward(self, dhs):
        Wx, Wh, b = self.params
        N, T, H = dhs.shape
        D, H = Wx.shape

        dxs = np.empty((N, T, D), dtype='f')#里面存的是传给下游的梯度
        dh = 0
        grads = [0, 0, 0]
        for t in reversed(range(T)):
            layer = self.layers[t]
            dx, dh = layer.backward(dhs[:, t, :] + dh)#dx是各个时刻的梯度，这里面流向 RNN 层的是求和后的梯度
            dxs[:, t, :] = dx#dx存放在 dxs 的对应索引处

            for i, grad in enumerate(layer.grads):
                grads[i] += grad#权重参数，要求各个RNN层的权重梯度的和

        for i, grad in enumerate(grads):
            self.grads[i][...] = grad#用最终结果覆盖成员变量self.grads
        self.dh = dh

        return dxs

现在实现了整体处理时序数据的Time RNN层。之前实现了RNN层。

接下来就要使用 RNN 实现语言模型。

会员力量，点亮园子希望

刷新页面返回顶部

jym蒟蒻

nlp RNN

RNN层的循环结构

RNN的隐藏状态

BPTT

Truncated BPTT

Truncated BPTT + mini-batch

Time RNN

RNN层实现

Time RNN层实现

About