摘要: VIT: AN IMAGE IS WORTH 16X16 WORDS link TL;DR 首篇使用纯Transformer来做CV任务的文章。 Method 首先将图像拆成多个图片Patch,每个Patch通过LindearProjection变成embedding特征,使用Transformer 阅读全文
posted @ 2024-03-05 23:46 fariver 阅读(40) 评论(0) 推荐(0) 编辑