2025 年 2月 13 日随笔档案 - 最爱丁珰

2025年2月13日

摘要：训练时解码器使用目标句子作为输入，这样即使某一个时间步预测错了也不要紧，我们输入的目标句子一定是对的 repeat这个函数就是广播张量，但是具体机制好像很复杂，只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size)，而在广播之前，context的形状是阅读全文

posted @ 2025-02-13 16:03 最爱丁珰阅读(4) 评论(0) 推荐(0) 编辑

9.7.1 编码器

摘要：编码器是一个没有输出的RNN 这里的nn.Embbeding见下下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设： import torch import torch.nn as nn # 创建嵌入层 # 参数说明： # num_embeddings=3 → 阅读全文

posted @ 2025-02-13 15:58 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

11.2.3 约束

摘要： “惩罚”那里，相当于对

L_{2}

正则化换了一种理解方法，我们给定了超参数

λ

（假设

λ

是最优的），去求解

w

，相当于在求解极大极小问题，根据对偶性，可以转成极小极大问题，于是可以转换成带有约束的最优化问题，而这个约束就是限制

w

的

L_{2}

范数阅读全文

posted @ 2025-02-13 15:27 最爱丁珰阅读(2) 评论(0) 推荐(0) 编辑

11.1.1 优化和目标

摘要：这里的

f

就是期望函数，而

g

就是在

f

的基础上加了噪声，所以是经验风险阅读全文

posted @ 2025-02-13 12:40 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

公告

昵称：最爱丁珰
园龄： 3年7个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

最爱丁珰

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜