摘要:
训练时解码器使用目标句子作为输入,这样即使某一个时间步预测错了也不要紧,我们输入的目标句子一定是对的 repeat这个函数就是广播张量,但是具体机制好像很复杂,只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size),而在广播之前,context的形状是 阅读全文
摘要:
编码器是一个没有输出的RNN 这里的nn.Embbeding见下 下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设: import torch import torch.nn as nn # 创建嵌入层 # 参数说明: # num_embeddings=3 → 阅读全文
摘要:
“惩罚”那里,相当于对 正则化换了一种理解方法,我们给定了超参数 (假设 是最优的),去求解 ,相当于在求解极大极小问题,根据对偶性,可以转成极小极大问题,于是可以转换成带有约束的最优化问题,而这个约束就是限制 的 范数 阅读全文