会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
namezhyp
博客园
首页
新随笔
联系
订阅
管理
2023年9月18日
Transformer架构学习笔记-Attention is all you need
摘要: 推荐学习顺序:周志华《机器学习》->《深度学习进阶:自然语言处理》->RNN->LSTM->seq2seq->transformer 一些要用到的参数 Dmodel:模型的维度,或者说词语token经过了embedding层后变成词向量的维度。这里取512维。 DK DV:分别代表编码器和解码器的多
阅读全文
posted @ 2023-09-18 17:59 namezhyp
阅读(349)
评论(0)
推荐(0)
编辑
公告