摘要: 训练时解码器使用目标句子作为输入,这样即使某一个时间步预测错了也不要紧,我们输入的目标句子一定是对的 repeat这个函数就是广播张量,但是具体机制好像很复杂,只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size),而在广播之前,context的形状是 阅读全文
posted @ 2025-02-13 16:03 最爱丁珰 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 编码器是一个没有输出的RNN 这里的nn.Embbeding见下 下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设: import torch import torch.nn as nn # 创建嵌入层 # 参数说明: # num_embeddings=3 → 阅读全文
posted @ 2025-02-13 15:58 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: “惩罚”那里,相当于对L2正则化换了一种理解方法,我们给定了超参数λ(假设λ是最优的),去求解w,相当于在求解极大极小问题,根据对偶性,可以转成极小极大问题,于是可以转换成带有约束的最优化问题,而这个约束就是限制wL2范数 阅读全文
posted @ 2025-02-13 15:27 最爱丁珰 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 这里的f就是期望函数,而g就是在f的基础上加了噪声,所以是经验风险 阅读全文
posted @ 2025-02-13 12:40 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示