比MobileOne还秀,Apple将重参数与ViT相结合提出FastViT

前言 本文介绍了 FastViT,这是一种混合ViT架构,可获得最先进的延迟-准确性权衡。它引入了一种新颖的token混合运算符 RepMixer,是 FastViT 的构建块,使用结构重新参数化通过删除网络中的跳过连接来降低内存访问成本。进一步应用训练时间过度参数化和大核卷积来提高准确性,并根据经验表明这些选择对延迟的影响最小。
FastViT,模型比 CMT 快 3.5 倍,比 EfficientNet 快 4.9 倍,比移动设备上的 ConvNeXt 快 1.9 倍,在 ImageNet 上的 Top-1 准确率比 MobileOne 高 4.2%。

本文转载自AIWalker

作者 | Happy

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

计算机视觉入门1v3辅导班

论文地址:

本文提出了一种Hybrid Vision Transformer架构FastViT,它取得了更优的延时-精度均衡。具体来说,

  • 提出了一种新的Token Mixing操作RepMixer作为FastViT的基础部件,它采用结构重参数机制移除跳过连接以降低访存占用
  • 引入重参数机制与大核卷积进一步提升模型性能;
  • 在同等延迟下,相比MobileOne,FastViT精度高出4.2%;在同等精度下,FastViT比EfficientNet快4.9倍,比ConvNeXt快1.9倍。

本文方案

上图给出了本文方案架构示意图,非常经典的4-stage架构。

  • 它采用RepMixer作为基础部件,RepMixer采用结构重参数机制移除跳过连接,进而缓解了访问占用消耗(见上图d)。
  • 为进一步改善效率与性能,作者将stem与下采样模块的稠密卷积进行拆解并引入重参数机制。
  • 自注意力机制在高分辨率阶段计算度过高,作者采用大核卷积作为替代,仅在第4阶段使用自注意力。

RepMixer

ConvMixer采用如下方式进行Token Mixing处理

作者再次基础上进行了简单的重排并移除非线性激活函数

很明显,上述操作在推理阶段可以折叠为简单的DWConv操作。

Empirical Analysis

上图对Poolformer与RepMixer进行对比分析,可以看到:相比Pool操作,RepMixer可以大幅改善推理效率。

本文实验

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

TSCD:弱监督语义分割新方法,中科院自动化所和北邮等联合提出

如何用单个GPU在不到24小时的时间内从零开始训练ViT模型?

CVPR 2023 | 基于Token对比的弱监督语义分割新方案!

CVPR 2023 | One-to-Few:没有NMS检测也可以很强很快

ICLR 2023 | Specformer: Spectral GNNs Meet Transformers

重新审视Dropout

RestoreDet:低分辨率图像中目标检测

AAAI 2023 | 打破NAS瓶颈,AIO-P跨任务网络性能预测新框架

CLIP:语言-图像表示之间的桥梁

目标检测Trick | SEA方法轻松抹平One-Stage与Two-Stage目标检测之间的差距

少样本学习综述:技术、算法和模型

CVPR 2023 | 标注500类,检测7000类!清华大学等提出通用目标检测算法UniDetector

CVPR 2023|基于多层多尺度重建任务的MIM改进算法

CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!

称霸Kaggle的十大深度学习技巧

CVPR 2023 | 用于半监督目标检测的知识蒸馏方法

目标跟踪方向开源数据集资源汇总

CVPR2023 | 书生模型霸榜COCO目标检测,研究团队解读公开

Vision Transformer的重参化也来啦 | RepAdpater让ViT起飞

高效压缩99%参数量!轻量型图像增强方案CLUT-Net开源

一文了解 CVPR 2023 的Workshop 都要做什么

CVPR'23 最新 70 篇论文分方向整理|包含目标检测、图像处理、人脸、医学影像、半监督学习等方向

目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度

PyTorch 2.0正式版来了!

CVPR2023最新Backbone | FasterNet远超ShuffleNet、MobileNet、MobileViT等模型

CVPR2023 | 集成预训练金字塔结构的Transformer模型

AAAI 2023 | 一种通用的粗-细视觉Transformer加速方案

大核分解与注意力机制的巧妙结合,图像超分多尺度注意网络MAN已开源!

计算机视觉各个方向交流群与知识星球

CV小知识讨论与分析(7) 寻找论文创新点的新方式

CV小知识分析与讨论(6)论文创新的一点误区

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

posted @ 2023-03-30 10:54  CV技术指南(公众号)  阅读(189)  评论(0编辑  收藏  举报