Vision Transformer和MLP-Mixer联系和对比

Vision Transformer和MLP-Mixer是深度学习领域最新的两个体系结构。他们在各种视觉任务中都非常成功。视觉Vision Transformer的性能略好于MLP-Mixers，但更复杂。但是这两个模型非常相似，只有微小的区别。本文中将对两个模型中的组件进行联系和对比，说明了它们的主要区别，并比较了它们的性能。

简介

Transformer自2016年引入以来，一直是自然语言处理(NLP)任务的重大突破。谷歌的BERT和Open AI的GPT体系结构已经成为语言翻译、文本生成、文本摘要和问题回答等任务的最先进解决方案。

Transformer在视觉领域的应用已经产生了令人印象深刻的结果。一个被称为ViT的模型能够在视觉分类中胜过经典的基于卷积的模型。出现在被称为Swin Transformer的ViT变体已经在各种计算机视觉任务中实现了最先进的性能，包括分类、检测和分割。

除此以外一个名为MLP-Mixer的架构受到了广泛关注。这类模型的简单性非常吸引人。与VIT一样，MLP-Mixer的变体也被应用于不同的计算机视觉任务，包括检测和分割。在某些情况下，这些模型的性能与基于Transformer的模型相当。

ViT和MLP-Mixer的架构如下所示。这些体系结构非常相似，通常包括三个主要部分，a)补丁嵌入，b)通过堆叠的Transformer编码器提取特征，c)分类头。

上图为VIT

MLP-Mixer

本文的主要目标是说明MLP-Mixer和ViT实际上是一个模型类，尽管它们在表面上看起来不同。

完整文章

https://avoid.overfit.cn/post/2416fcc61e2a48f4a0c288dfb30c81bf

posted @ 2022-10-03 09:59 deephub 阅读(311) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

Vision Transformer和MLP-Mixer联系和对比

简介

公告