摘要: 整体结构 自注意力 多头注意力 Masked Self-Attention 传统 Seq2Seq 中 Decoder 使用的是 RNN 模型,因此在训练过程中输入因此在训练过程中输入t时刻的词,模型无论如何也看不到未来时刻的词,因为循环神经网络是时间驱动的,只有当t时刻运算结束了,才能看到t+1时刻 阅读全文
posted @ 2024-04-20 21:21 漫漫长夜何时休 阅读(5) 评论(0) 推荐(0) 编辑