摘要: 论文提出了多尺度视觉Transformer模型MViT,将多尺度层级特征的基本概念与Transformer模型联系起来,在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中,MViT均优于单尺度的ViT。 来源:晓飞的算法工程笔记 公众号 论文: Multiscale Vision 阅读全文
posted @ 2024-07-17 13:43 晓飞的算法工程笔记 阅读(312) 评论(0) 推荐(0) 编辑