2020 年 3月 13 日随笔档案 - 虾野百鹤

2020年3月13日

摘要：训练过程中的 Mask实现 mask 机制的原理是, 在 decoder 端, 做 self-Attention 的时候, 不能 Attention 还未被预测的单词, 预测的信息是基于encoder 与以及预测出的单词. 而在 encoder 阶段的, Self_Attention 却没有这个机制阅读全文

posted @ 2020-03-13 10:49 虾野百鹤阅读(14226) 评论(0) 推荐(2) 编辑

行远自迩登高自卑

公告

行远自迩 登高自卑

公告

行远自迩登高自卑