随笔分类 -  深度学习 / 动手学深度学习 / 现代循环神经网络

摘要:梯度消失问题是指在深度神经网络中,反向传播时梯度随着层数的增加逐渐变小,导致早期层的权重更新非常缓慢,甚至几乎不更新。这个问题在长序列的循环神经网络(RNN)中尤为明显。 为了缓解这个问题,门控循环单元(GRU)和长短期记忆网络(LSTM)引入了门控机制,使得网络能够更好地控制信息的流动。下面我们将 阅读全文
posted @ 2025-03-22 19:17 最爱丁珰 阅读(92) 评论(0) 推荐(0)
摘要:\((5)\) 他这个答案算是一种方式吧,但是你说不能令一个time就是一个num_steps吗?我觉得可以 阅读全文
posted @ 2025-03-15 18:50 最爱丁珰 阅读(15) 评论(0) 推荐(0)
摘要:我觉得这个问题的核心在于理解为什么在实际应用中,尽管 RNN 可以动态处理不同长度的序列,我们还是需要截断和填充。RNN 本身确实可以通过循环结构处理任意长度的序列,但实际应用中,我们通常需要批量处理数据,而批量数据的形状需要固定。如果每个序列的长度不同,GPU 无法高效地进行并行计算,因为每次循环 阅读全文
posted @ 2025-02-25 14:04 最爱丁珰 阅读(32) 评论(0) 推荐(0)
摘要:这里从一堆概率的乘积转化为一堆\(\log\)的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列,其实是为了惩罚短序列,在没有除以\(L^{\alpha}\)的时候,模型更倾向于输出短的序列,这个操作叫做规范化,如果\(\alpha=1\),则叫做完全规范化 那么调整超参数束宽的时候我 阅读全文
posted @ 2025-02-19 09:53 最爱丁珰 阅读(33) 评论(0) 推荐(0)
摘要:\(\text{BLEU}\)分数的主要目的是在有多个比较好的翻译的情况下去进行选择 但是吴恩达给的\(\text{BLEU}\)分数好像有一点不同,如下 这是没有带惩罚项的项(惩罚项跟书上的相同) 阅读全文
posted @ 2025-02-15 20:18 最爱丁珰 阅读(24) 评论(0) 推荐(0)
摘要:这里的预测过程不是图\(9\)-$14,应该是下面这幅图,这里有误 阅读全文
posted @ 2025-02-15 20:08 最爱丁珰 阅读(16) 评论(0) 推荐(0)
摘要:这里的翻译好像有点问题,强制教学不是不包括eos,而是不包括最后一个词元(因为解码器接受的输入长度是固定的,这里要插入bos,就要忽视最后一个词元)。代码是这么表示的,英文版也是这么写的 l.sum().backward()可能改成l.mean().backward()更标准一点 阅读全文
posted @ 2025-02-15 19:30 最爱丁珰 阅读(20) 评论(0) 推荐(0)
摘要:回忆一下,super(MaskedSoftmaxCELoss, self).forward就相当于直接计算损失函数,这是nn.Module的普遍做法;还要注意nn.CrossEntropyLoss会对传入的数据做\(\text{Softmax}\),不需要我们传入一个已经做了\(\text{Soft 阅读全文
posted @ 2025-02-15 16:54 最爱丁珰 阅读(41) 评论(0) 推荐(0)
摘要:这里的nn.GRU只传入了参数num_inputs和num_hiddens,那么为什么没有num_outputs呢?难道跟从零开始实现的代码一样,有num_inputs=num_outputs吗?实际上不是的,我们的GRU只会输出隐状态,最终的输出状态是需要再连接一个全连接层什么的。我们去看d2l. 阅读全文
posted @ 2025-02-15 16:18 最爱丁珰 阅读(19) 评论(0) 推荐(0)
摘要:训练时解码器使用目标句子作为输入,这样即使某一个时间步预测错了也不要紧,我们输入的目标句子一定是对的 repeat这个函数就是广播张量,但是具体机制好像很复杂,只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size),而在广播之前,context的形状是 阅读全文
posted @ 2025-02-13 16:03 最爱丁珰 阅读(67) 评论(0) 推荐(0)
摘要:编码器是一个没有输出的RNN 这里的nn.Embbeding见下 下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设: import torch import torch.nn as nn # 创建嵌入层 # 参数说明: # num_embeddings=3 → 阅读全文
posted @ 2025-02-13 15:58 最爱丁珰 阅读(35) 评论(0) 推荐(0)