ViT Transformers提炼分析

《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

原理：使用transformer对长序列之间的关系进行建模（自注意力）

方法：首次提出使用transformer进行分类：把输入图像直接划分为token，位置编码为可学习的token，额外增加一个分类token，最后使用head预测。

结果： acc提升， sota

posted @ 2022-12-14 00:58 tanv 阅读(100) 评论(0) 收藏举报

刷新页面返回顶部

tanv