摘要: 训练过程中的 Mask实现 mask 机制的原理是, 在 decoder 端, 做 self-Attention 的时候, 不能 Attention 还未被预测的单词, 预测的信息是基于encoder 与以及预测出的单词. 而在 encoder 阶段的, Self_Attention 却没有这个机制 阅读全文
posted @ 2020-03-13 10:49 虾野百鹤 阅读(14226) 评论(0) 推荐(2) 编辑