会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Jerry_Jin
迎着永恒的东风,把红旗插到九重
首页
联系
订阅
管理
2021年3月9日
Transformer中K 、Q、V的设置以及为什么不能使用同一个值
摘要: What is attention? 先简单描述一下attention机制是什么。相信做NLP的同学对这个机制不会很陌生,它在Attention is all you need可以说是大放异彩,在machine translation任务中,帮助深度模型在性能上有了很大的提升,输出了当时最好的sta
阅读全文
posted @ 2021-03-09 22:19 Jerry_Jin
阅读(10455)
评论(0)
推荐(3)
编辑
公告