2025 年 2月 15 日随笔档案 - 最爱丁珰

2025年2月15日

摘要：式

(11.78)

的直观理解：最开始的时候梯度很大，为了防止震荡，我们需要减小步长，这是分母的作用，但是梯度大就表示参数更新也应该大，所以需要增大步长，这是分子的作用；迭代一段时间之后，梯度就变小了，此时为了加速收敛，我们需要增大步长，这是分母的作用（注意这里跟\(\text{AdaGrad} 阅读全文

posted @ 2025-02-15 23:29 最爱丁珰阅读(2) 评论(0) 推荐(0) 编辑

9.7.6 预测序列的评估

摘要：

BLEU

分数的主要目的是在有多个比较好的翻译的情况下去进行选择但是吴恩达给的

BLEU

分数好像有一点不同，如下这是没有带惩罚项的项（惩罚项跟书上的相同）阅读全文

posted @ 2025-02-15 20:18 最爱丁珰阅读(1) 评论(0) 推荐(0) 编辑

9.7.5 预测

摘要：这里的预测过程不是图

9

-$14，应该是下面这幅图，这里有误阅读全文

posted @ 2025-02-15 20:08 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

9.7.4 训练

摘要：这里的翻译好像有点问题，强制教学不是不包括eos，而是不包括最后一个词元（因为解码器接受的输入长度是固定的，这里要插入bos，就要忽视最后一个词元）。代码是这么表示的，英文版也是这么写的 l.sum().backward()可能改成l.mean().backward()更标准一点阅读全文

posted @ 2025-02-15 19:30 最爱丁珰阅读(1) 评论(0) 推荐(0) 编辑

9.7.3 损失函数

摘要：回忆一下，super(MaskedSoftmaxCELoss, self).forward就相当于直接计算损失函数，这是nn.Module的普遍做法；还要注意nn.CrossEntropyLoss会对传入的数据做

Softmax

，不需要我们传入一个已经做了\(\text{Soft 阅读全文

posted @ 2025-02-15 16:54 最爱丁珰阅读(2) 评论(0) 推荐(0) 编辑

9.1.3 简洁实现

摘要：这里的nn.GRU只传入了参数num_inputs和num_hiddens，那么为什么没有num_outputs呢？难道跟从零开始实现的代码一样，有num_inputs=num_outputs吗？实际上不是的，我们的GRU只会输出隐状态，最终的输出状态是需要再连接一个全连接层什么的。我们去看d2l. 阅读全文

posted @ 2025-02-15 16:18 最爱丁珰阅读(1) 评论(0) 推荐(0) 编辑

公告

昵称：最爱丁珰
园龄： 3年7个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

最爱丁珰

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜