d2l-现代循环神经网络

1. 深层循环神经网络

之前介绍的循环神经网络都只有一个单向隐藏层。
我们可以通过添加更多的层，引入更多的非线性，增大模型的复杂度。

上图描述了一个具有L个隐藏层的深度循环神经网络，每个隐状态都连续地传递到：

当前层的下一个时间步
下一层的当前时间步

H_{t}^{(l)} = ϕ_{l} (H_{t}^{(l - 1)} W_{x h}^{(l)} + H_{t - 1}^{(l)} W_{h h}^{(l)} + b_{h}^{(l)})

O_{t} = H_{t}^{(L)} W_{h q} + b_{q}

在Pytorch中只需指定num_layers，即可增加循环神经网络中的隐藏层。
RNN、GRU、LSTM等模型，都可以设计成深层模型。

vocab_size, num_hiddens, num_layers = len(vocab), 256, 2
num_inputs = vocab_size
device = d2l.try_gpu()
lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)

2. 双向循环神经网络

之前的循环神经网络只考虑了过去的历史信息（即，上文），而没有考虑下文。
事实上，下文也传达了重要的信息。例如：

我___。
我___饿了。
我___饿了，我可以吃半头猪。

不适用：双向循环神经网络不好做推理、预测，因为无法获知后面的内容/未来
适用：对序列抽取特征、填空，词元注释（例如，用于命名实体识别）

由于梯度链更长，双向循环神经网络的训练代价非常高。

import torch
from torch import nn
from d2l import torch as d2l

# 加载数据
batch_size, num_steps, device = 32, 35, d2l.try_gpu()
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
# 通过设置“bidirective=True”来定义双向LSTM模型
vocab_size, num_hiddens, num_layers = len(vocab), 256, 2
num_inputs = vocab_size
lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers, bidirectional=True)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)
# 训练模型
num_epochs, lr = 500, 1
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)