会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
凌波微步_Arborday
博客园
首页
新随笔
联系
订阅
管理
2022年11月6日
21个Transformer面试题的简单回答 -- 加强版
摘要: 原文链接:https://jishuin.proginn.com/p/763bfbd565fc 本文在原文基础框架上有增加,附上更详细或者正确的解答。 1.Transformer为何使用多头注意力机制?(为什么不使用一个头)答:多头可以使参数矩阵形成多个子空间,矩阵整体的size不变,只是改变了每个
阅读全文
posted @ 2022-11-06 11:41 凌波微步_Arborday
阅读(498)
评论(0)
推荐(0)
编辑
公告