机器学习——循环神经网络的实现
独热编码
回想一下,在train_iter
中,每个词元都表示为一个数字索引, 将这些索引直接输入神经网络可能会使学习变得困难。 我们通常将每个词元表示为更具表现力的特征向量。 最简单的表示称为独热编码(one-hot encoding), 它在 3.4.1节中介绍过。
简言之,将每个索引映射为相互不同的单位向量: 假设词表中不同词元的数目为N(len(vocab))词元索引的范围为0到N-1。如果词元的索引是整数i ,那么我们将创建一个长度为N的全0向量, 并将第i处的元素设置为1。 此向量是原始词元的一个独热向量。 索引为0和2独热向量如下所示:<br />
1 | F.one_hot(torch.tensor([ 0 , 2 ]), len (vocab)) |
tensor([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
我们每次采样的小批量数据形状是二维张量: (批量大小,时间步数)。 one_hot
函数将这样一个小批量数据转换成三维张量, 张量的最后一个维度等于词表大小(len(vocab)
)。 我们经常转换输入的维度,以便获得形状为 (时间步数,批量大小,词表大小)的输出。 这将使我们能够更方便地通过最外层的维度, 一步一步地更新小批量数据的隐状态。
1 2 | X = torch.arange( 10 ).reshape(( 2 , 5 )) F.one_hot(X.T, 28 ).shape |
torch.Size([5, 2, 28])
初始化模型参数
接下来,我们初始化循环神经网络模型的模型参数。 隐藏单元数num_hiddens
是一个可调的超参数。 当训练语言模型时,输入和输出来自相同的词表。 因此,它们具有相同的维度,即词表的大小。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | def get_params(vocab_size, num_hiddens, device): num_inputs = num_outputs = vocab_size def normal(shape): return torch.randn(size = shape, device = device) * 0.01 # 隐藏层参数 W_xh = normal((num_inputs, num_hiddens)) W_hh = normal((num_hiddens, num_hiddens)) b_h = torch.zeros(num_hiddens, device = device) # 输出层参数 W_hq = normal((num_hiddens, num_outputs)) b_q = torch.zeros(num_outputs, device = device) # 附加梯度 params = [W_xh, W_hh, b_h, W_hq, b_q] for param in params: param.requires_grad_( True ) return params |
循环神经网络模型
定义了所有需要的函数之后,接下来我们创建一个类来包装这些函数, 并存储从零开始实现的循环神经网络模型的参数。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | class RNNModelScratch: #@save """从零开始实现的循环神经网络模型""" def __init__( self , vocab_size, num_hiddens, device, get_params, init_state, forward_fn): self .vocab_size, self .num_hiddens = vocab_size, num_hiddens self .params = get_params(vocab_size, num_hiddens, device) self .init_state, self .forward_fn = init_state, forward_fn def __call__( self , X, state): X = F.one_hot(X.T, self .vocab_size). type (torch.float32) return self .forward_fn(X, state, self .params) def begin_state( self , batch_size, device): return self .init_state(batch_size, self .num_hiddens, device) |
让我们检查输出是否具有正确的形状。 例如,隐状态的维数是否保持不变。
1 2 3 4 5 6 | num_hiddens = 512 net = RNNModelScratch( len (vocab), num_hiddens, d2l.try_gpu(), get_params, init_rnn_state, rnn) state = net.begin_state(X.shape[ 0 ], d2l.try_gpu()) Y, new_state = net(X.to(d2l.try_gpu()), state) Y.shape, len (new_state), new_state[ 0 ].shape |
(torch.Size([10, 28]), 1, torch.Size([2, 512]))
预测
让我们首先定义预测函数来生成prefix
之后的新字符, 其中的prefix
是一个用户提供的包含多个字符的字符串。 在循环遍历prefix
中的开始字符时, 我们不断地将隐状态传递到下一个时间步,但是不生成任何输出。 这被称为预热(warm-up)期, 因为在此期间模型会自我更新(例如,更新隐状态), 但不会进行预测。 预热期结束后,隐状态的值通常比刚开始的初始值更适合预测, 从而预测字符并输出它们。(虽然在理论上可以在预测时同时顺便进行状态更新,但在实际应用中,预热器可以提前进行状态更新,以便在预测时更快地生成结果。)
1 2 3 4 5 6 7 8 9 10 11 12 | def predict_ch8(prefix, num_preds, net, vocab, device): #@save """在prefix后面生成新字符""" state = net.begin_state(batch_size = 1 , device = device) outputs = [vocab[prefix[ 0 ]]] get_input = lambda : torch.tensor([outputs[ - 1 ]], device = device).reshape(( 1 , 1 )) for y in prefix[ 1 :]: # 预热期 _, state = net(get_input(), state) outputs.append(vocab[y]) for _ in range (num_preds): # 预测num_preds步 y, state = net(get_input(), state) outputs.append( int (y.argmax(dim = 1 ).reshape( 1 ))) return ''.join([vocab.idx_to_token[i] for i in outputs]) |
现在我们可以测试predict_ch8
函数。 我们将前缀指定为time traveller
, 并基于这个前缀生成10个后续字符。 鉴于我们还没有训练网络,它会生成荒谬的预测结果。
1 | predict_ch8( 'time traveller ' , 10 , net, vocab, d2l.try_gpu())、 |
'time traveller aaaaaaaaaa'
梯度裁剪
裁剪梯度是优化算法中一种常用的技术,用于控制梯度的大小,以避免梯度爆炸(梯度过大)或梯度消失(梯度过小)的问题。其中,将梯度投影回给定半径的球是一种流行的替代方案,下面我来详细解释一下:
-
裁剪梯度的概念: 在深度学习中,参数更新通常是通过反向传播计算得到的梯度,梯度表示了损失函数关于参数的变化率。然而,有时梯度可能会非常大,导致参数更新过大,这可能会使模型不稳定甚至无法收敛。相反,梯度过小可能会导致训练过慢,或者陷入局部最优解。为了避免这些问题,我们可以对梯度进行裁剪,即限制梯度的范数。
-
将梯度投影回给定半径的球: 这种方法的思想是,当梯度的范数(或长度)超过了一个指定的阈值(例如,给定半径),我们可以按比例缩放梯度向量,使其重新落在以原点为圆心、给定半径为半径的球面上。这样做可以保证梯度的范数不会超过给定的阈值,同时保持了梯度的方向。具体来说,如果梯度的范数超过了给定的阈值,我们可以按如下方式进行操作:
- 计算当前梯度的范数。
- 如果梯度的范数超过了给定阈值,我们将梯度向量缩放至与给定半径相切。
这种方法的好处在于,它可以有效地控制梯度的大小,从而提高训练的稳定性,同时避免出现梯度爆炸或梯度消失的问题。在实际的深度学习训练中,对于一些梯度范围较大的情况,采用梯度裁剪的技术能够帮助模型更好地学习并取得更好的性能。
1 2 3 4 5 6 7 8 9 10 | def grad_clipping(net, theta): #@save """裁剪梯度""" if isinstance (net, nn.Module): params = [p for p in net.parameters() if p.requires_grad] else : params = net.params norm = torch.sqrt( sum (torch. sum ((p.grad * * 2 )) for p in params)) if norm > theta: for param in params: param.grad[:] * = theta / norm |
训练
在训练模型之前,让我们定义一个函数在一个迭代周期内训练模型。 它与我们训练 3.6节模型的方式有三个不同之处。
-
序列数据的不同采样方法(随机采样和顺序分区)将导致隐状态初始化的差异。
-
我们在更新模型参数之前裁剪梯度。 这样的操作的目的是,即使训练过程中某个点上发生了梯度爆炸,也能保证模型不会发散。
-
我们用困惑度来评价模型。如 8.4.4节所述, 这样的度量确保了不同长度的序列具有可比性。
具体来说,当使用顺序分区时, 我们只在每个迭代周期的开始位置初始化隐状态。 由于下一个小批量数据中的第i个子序列样本 与当前第i个子序列样本相邻, 因此当前小批量数据最后一个样本的隐状态, 将用于初始化下一个小批量数据第一个样本的隐状态。 这样,存储在隐状态中的序列的历史信息 可以在一个迭代周期内流经相邻的子序列。 然而,在任何一点隐状态的计算, 都依赖于同一迭代周期中前面所有的小批量数据, 这使得梯度计算变得复杂。为了降低计算量,在处理任何一个小批量数据之前, 我们先分离梯度,使得隐状态的梯度计算总是限制在一个小批量数据的时间步内。
当使用随机抽样时,因为每个样本都是在一个随机位置抽样的, 因此需要为每个迭代周期重新初始化隐状态。 与 3.6节中的 train_epoch_ch3
函数相同,updater
是更新模型参数的常用函数。 它既可以是从头开始实现的d2l.sgd
函数, 也可以是深度学习框架中内置的优化函数。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 | #@save def train_epoch_ch8(net, train_iter, loss, updater, device, use_random_iter): """训练网络一个迭代周期(定义见第8章)""" state, timer = None , d2l.Timer() metric = d2l.Accumulator( 2 ) # 训练损失之和,词元数量 for X, Y in train_iter: if state is None or use_random_iter: # 在第一次迭代或使用随机抽样时初始化state state = net.begin_state(batch_size = X.shape[ 0 ], device = device) else : if isinstance (net, nn.Module) and not isinstance (state, tuple ): # state对于nn.GRU是个张量 state.detach_() else : # state对于nn.LSTM或对于我们从零开始实现的模型是个张量 for s in state: s.detach_() y = Y.T.reshape( - 1 ) #Y:(批量大小,时间步长) X, y = X.to(device), y.to(device) #y:(批量大小*时间步长) y_hat, state = net(X, state) #y_hat:(批量大小*时间步长,词表大小) l = loss(y_hat, y. long ()).mean() #loss:(批量大小*时间步长) if isinstance (updater, torch.optim.Optimizer): updater.zero_grad() l.backward() grad_clipping(net, 1 ) updater.step() else : l.backward() grad_clipping(net, 1 ) # 因为已经调用了mean函数 updater(batch_size = 1 ) metric.add(l * y.numel(), y.numel()) #y张量中的元素个数就是词元个数 return math.exp(metric[ 0 ] / metric[ 1 ]), metric[ 1 ] / timer.stop() |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | #@save def train_ch8(net, train_iter, vocab, lr, num_epochs, device, use_random_iter = False ): """训练模型(定义见第8章)""" loss = nn.CrossEntropyLoss() animator = d2l.Animator(xlabel = 'epoch' , ylabel = 'perplexity' , legend = [ 'train' ], xlim = [ 10 , num_epochs]) # 初始化 if isinstance (net, nn.Module): updater = torch.optim.SGD(net.parameters(), lr) else : updater = lambda batch_size: d2l.sgd(net.params, lr, batch_size) predict = lambda prefix: predict_ch8(prefix, 50 , net, vocab, device) # 训练和预测 for epoch in range (num_epochs): ppl, speed = train_epoch_ch8( net, train_iter, loss, updater, device, use_random_iter) if (epoch + 1 ) % 10 = = 0 : print (predict( 'time traveller' )) animator.add(epoch + 1 , [ppl]) print (f '困惑度 {ppl:.1f}, {speed:.1f} 词元/秒 {str(device)}' ) print (predict( 'time traveller' )) print (predict( 'traveller' )) |
简洁实现
1 2 3 4 5 6 7 | import torch from torch import nn from torch.nn import functional as F from d2l import torch as d2l batch_size, num_steps = 32 , 35 train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps) |
1 2 | num_hiddens = 256 rnn_layer = nn.RNN( len (vocab), num_hiddens) |
我们使用张量来初始化隐状态,它的形状是(隐藏层数,批量大小,隐藏单元数)。
1 2 | state = torch.zeros(( 1 , batch_size, num_hiddens)) state.shape |
torch.Size([1, 32, 256])
通过一个隐状态和一个输入,我们就可以用更新后的隐状态计算输出。 需要强调的是,rnn_layer
的“输出”(Y
)不涉及输出层的计算: 它是指每个时间步的隐状态,这些隐状态可以用作后续输出层的输入。
1 2 3 | X = torch.rand(size = (num_steps, batch_size, len (vocab))) Y, state_new = rnn_layer(X, state) Y.shape, state_new.shape |
(torch.Size([35, 32, 256]), torch.Size([1, 32, 256]))
与 8.5节类似, 我们为一个完整的循环神经网络模型定义了一个RNNModel
类。 注意,上面定义的nn.RNN(rnn_layer)
只包含隐藏的循环层,我们还需要创建一个单独的输出层。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 | #@save class RNNModel(nn.Module): """循环神经网络模型""" def __init__( self , rnn_layer, vocab_size, * * kwargs): super (RNNModel, self ).__init__( * * kwargs) self .rnn = rnn_layer self .vocab_size = vocab_size self .num_hiddens = self .rnn.hidden_size # 如果RNN是双向的(之后将介绍),num_directions应该是2,否则应该是1 if not self .rnn.bidirectional: self .num_directions = 1 self .linear = nn.Linear( self .num_hiddens, self .vocab_size) else : self .num_directions = 2 self .linear = nn.Linear( self .num_hiddens * 2 , self .vocab_size) def forward( self , inputs, state): X = F.one_hot(inputs.T. long (), self .vocab_size) X = X.to(torch.float32) Y, state = self .rnn(X, state) # 全连接层首先将Y的形状改为(时间步数*批量大小,隐藏单元数) # 它的输出形状是(时间步数*批量大小,词表大小)。 output = self .linear(Y.reshape(( - 1 , Y.shape[ - 1 ]))) return output, state def begin_state( self , device, batch_size = 1 ): if not isinstance ( self .rnn, nn.LSTM): # nn.GRU以张量作为隐状态 return torch.zeros(( self .num_directions * self .rnn.num_layers, batch_size, self .num_hiddens), device = device) else : # nn.LSTM以元组作为隐状态 return (torch.zeros(( self .num_directions * self .rnn.num_layers, batch_size, self .num_hiddens), device = device), torch.zeros(( self .num_directions * self .rnn.num_layers, batch_size, self .num_hiddens), device = device)) |
总结
-
我们可以训练一个基于循环神经网络的字符级语言模型,根据用户提供的文本的前缀生成后续文本。
-
一个简单的循环神经网络语言模型包括输入编码、循环神经网络模型和输出生成。
-
循环神经网络模型在训练以前需要初始化状态,不过随机抽样和顺序划分使用初始化方法不同。
-
当使用顺序划分时,我们需要分离梯度以减少计算量。
-
在进行任何预测之前,模型通过预热期进行自我更新(例如,获得比初始值更好的隐状态)。
-
梯度裁剪可以防止梯度爆炸,但不能应对梯度消失。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
2022-11-12 1007 Maximum Subsequence Sum
2022-11-12 1001 A+B Format