会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
阁下
博客园
首页
新随笔
联系
订阅
管理
2024年4月20日
Transformer笔记
摘要: 整体结构 自注意力 多头注意力 Masked Self-Attention 传统 Seq2Seq 中 Decoder 使用的是 RNN 模型,因此在训练过程中输入因此在训练过程中输入t时刻的词,模型无论如何也看不到未来时刻的词,因为循环神经网络是时间驱动的,只有当t时刻运算结束了,才能看到t+1时刻
阅读全文
posted @ 2024-04-20 21:21 漫漫长夜何时休
阅读(5)
评论(0)
推荐(0)
编辑
公告