会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
代码空间
Computer Vision/Machine Learning/Evolutionary Computation...
博客园
首页
新随笔
联系
订阅
管理
2023年4月29日
An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
摘要: 模型如下图所示: 将H×W×C的图像reshape成了N×(P2×C),其中(H,W)是图像的原始分辨率,C是通道数,(P,P)是每个图像块的分辨率,N=H×W/P2为图像块的数量,将一个图像块使用可学习的线性层映射到维度为D的隐藏向量,如式(1)所示,线性映射的输出称为patch embeddin
阅读全文
posted @ 2023-04-29 23:45 MSTK
阅读(60)
评论(0)
推荐(0)
编辑
公告