会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
行远自迩 登高自卑
博客园
首页
新随笔
联系
订阅
管理
2020年3月13日
Transformer 源码中 Mask 机制的实现
摘要: 训练过程中的 Mask实现 mask 机制的原理是, 在 decoder 端, 做 self-Attention 的时候, 不能 Attention 还未被预测的单词, 预测的信息是基于encoder 与以及预测出的单词. 而在 encoder 阶段的, Self_Attention 却没有这个机制
阅读全文
posted @ 2020-03-13 10:49 虾野百鹤
阅读(14226)
评论(0)
推荐(2)
编辑
公告