现代循环神经网络 - 随笔分类 - 最爱丁珰

9.1.1 门控隐状态

摘要：梯度消失问题是指在深度神经网络中，反向传播时梯度随着层数的增加逐渐变小，导致早期层的权重更新非常缓慢，甚至几乎不更新。这个问题在长序列的循环神经网络（RNN）中尤为明显。为了缓解这个问题，门控循环单元（GRU）和长短期记忆网络（LSTM）引入了门控机制，使得网络能够更好地控制信息的流动。下面我们将阅读全文

posted @ 2025-03-22 19:17 最爱丁珰阅读(92) 评论(0) 推荐(0)

9.2 练习

摘要：$(5)$ 他这个答案算是一种方式吧，但是你说不能令一个time就是一个num_steps吗？我觉得可以阅读全文

posted @ 2025-03-15 18:50 最爱丁珰阅读(15) 评论(0) 推荐(0)

9.5.4 加载数据集

摘要：我觉得这个问题的核心在于理解为什么在实际应用中，尽管 RNN 可以动态处理不同长度的序列，我们还是需要截断和填充。RNN 本身确实可以通过循环结构处理任意长度的序列，但实际应用中，我们通常需要批量处理数据，而批量数据的形状需要固定。如果每个序列的长度不同，GPU 无法高效地进行并行计算，因为每次循环阅读全文

posted @ 2025-02-25 14:04 最爱丁珰阅读(33) 评论(0) 推荐(0)

9.8.3 束搜索

摘要：这里从一堆概率的乘积转化为一堆$\log$的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列，其实是为了惩罚短序列，在没有除以$L^{\alpha}$的时候，模型更倾向于输出短的序列，这个操作叫做规范化，如果$\alpha=1$，则叫做完全规范化那么调整超参数束宽的时候我阅读全文

posted @ 2025-02-19 09:53 最爱丁珰阅读(33) 评论(0) 推荐(0)

9.7.6 预测序列的评估

摘要：$\text{BLEU}$分数的主要目的是在有多个比较好的翻译的情况下去进行选择但是吴恩达给的$\text{BLEU}$分数好像有一点不同，如下这是没有带惩罚项的项（惩罚项跟书上的相同）阅读全文

posted @ 2025-02-15 20:18 最爱丁珰阅读(24) 评论(0) 推荐(0)

9.7.5 预测

摘要：这里的预测过程不是图$9$-$14，应该是下面这幅图，这里有误阅读全文

posted @ 2025-02-15 20:08 最爱丁珰阅读(16) 评论(0) 推荐(0)

9.7.4 训练

摘要：这里的翻译好像有点问题，强制教学不是不包括eos，而是不包括最后一个词元（因为解码器接受的输入长度是固定的，这里要插入bos，就要忽视最后一个词元）。代码是这么表示的，英文版也是这么写的 l.sum().backward()可能改成l.mean().backward()更标准一点阅读全文

posted @ 2025-02-15 19:30 最爱丁珰阅读(20) 评论(0) 推荐(0)

9.7.3 损失函数

摘要：回忆一下，super(MaskedSoftmaxCELoss, self).forward就相当于直接计算损失函数，这是nn.Module的普遍做法；还要注意nn.CrossEntropyLoss会对传入的数据做$\text{Softmax}$，不需要我们传入一个已经做了\(\text{Soft 阅读全文

posted @ 2025-02-15 16:54 最爱丁珰阅读(41) 评论(0) 推荐(0)

9.1.3 简洁实现

摘要：这里的nn.GRU只传入了参数num_inputs和num_hiddens，那么为什么没有num_outputs呢？难道跟从零开始实现的代码一样，有num_inputs=num_outputs吗？实际上不是的，我们的GRU只会输出隐状态，最终的输出状态是需要再连接一个全连接层什么的。我们去看d2l. 阅读全文

posted @ 2025-02-15 16:18 最爱丁珰阅读(19) 评论(0) 推荐(0)

9.7.2 解码器

摘要：训练时解码器使用目标句子作为输入，这样即使某一个时间步预测错了也不要紧，我们输入的目标句子一定是对的 repeat这个函数就是广播张量，但是具体机制好像很复杂，只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size)，而在广播之前，context的形状是阅读全文

posted @ 2025-02-13 16:03 最爱丁珰阅读(67) 评论(0) 推荐(0)

9.7.1 编码器

摘要：编码器是一个没有输出的RNN 这里的nn.Embbeding见下下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设： import torch import torch.nn as nn # 创建嵌入层 # 参数说明： # num_embeddings=3 → 阅读全文

posted @ 2025-02-13 15:58 最爱丁珰阅读(35) 评论(0) 推荐(0)

最爱丁珰

随笔分类 - 深度学习 / 动手学深度学习 / 现代循环神经网络

公告