AI算法 - 随笔分类 - ZOMI酱酱

CLIP：多模态领域革命者

摘要：CLIP：多模态领域革命者当前的内容是梳理《Transformer视觉系列遨游》系列过程中引申出来的。目前最近在AI作画这个领域 Transformer 火的一塌糊涂，AI画画效果从18年的 DeepDream[1] 噩梦中惊醒过来，开始从2022年 OpenAI 的 DALL·E 2[2] 引来阅读全文

posted @ 2022-08-18 19:33 ZOMI酱酱阅读(3226) 评论(0) 推荐(0)

EfficientFormer：轻量化ViT Backbone

摘要：MobileViT 结构上基本基于 MobileNet V2 而改进增加了 MobileViT block，但是同样能够实现一个不错的精度表现，文章实验部分大量的对比了 MobileViT 跟 CNN 和 ViT 模型的参数量和模型大小，不过值得一提的是在端侧除了模型大小以外，更加重视模型的性能，只能说这篇文章经典之处是开创了 CNN 融合 ViT 在端侧的研究。阅读全文

posted @ 2022-07-22 16:51 ZOMI酱酱阅读(1134) 评论(0) 推荐(0)

MobileViT：挑战MobileNet端侧霸主

摘要：那现在！是否有可能结合 CNN 和 ViT 的优势，为移动视觉任务构建一个轻量级、低延迟的网络？为此，作者提出了 MobileViT，一种用于移动设备的轻量级通用视觉Transformer。阅读全文

posted @ 2022-07-21 00:09 ZOMI酱酱阅读(652) 评论(0) 推荐(0)

DeiT：注意力也能蒸馏

摘要：DeiT 是一个全 Transformer 的架构。其核心是提出了针对 ViT 的教师-学生蒸馏训练策略，并提出了 token-based distillation 方法，使得 Transformer 在视觉领域训练得又快又好。阅读全文

posted @ 2022-07-20 00:17 ZOMI酱酱阅读(1676) 评论(0) 推荐(1)

MoCo V3：视觉自监督迎来Transformer

摘要：何凯明从 CVPR 2020 上发表的 MoCo V1（Momentum Contrast for Unsupervised Visual Representation Learning），到前几天挂在arxiv上面的 MoCo V3（An Empirical Study of Training Self-Supervised Visual Transformers），MoCo一共走过了三个版本。今天介绍 MoCo 系列第三版，MoCo v1 和 v2 是针对 CNN 设计的，而 MoCo v3 是针对 Transformer 结构设计的，反映了 MoCo 系列对视觉模型的普适性。阅读全文

posted @ 2022-07-18 22:17 ZOMI酱酱阅读(805) 评论(0) 推荐(0)

MoCo V2：MoCo系列再升级

摘要：何凯明从 CVPR 2020 上发表的 MoCo V1（Momentum Contrast for Unsupervised Visual Representation Learning），到前几天挂在arxiv上面的 MoCo V3（An Empirical Study of Training Self-Supervised Visual Transformers），MoCo一共走过了三个版本。今天介绍 MoCo 系列第二版 MoCo v2 就是在 SimCLR 发表后结合了 SimCLR 优点的图像自监督学习方法，MoCo v1 和 v2 是针对 CNN 设计的，而 MoCo v3 是针对 Transformer 结构设计的，反映了 MoCo 系列对视觉模型的普适性。阅读全文

posted @ 2022-07-18 22:14 ZOMI酱酱阅读(627) 评论(0) 推荐(0)

MoCo V1：视觉领域也能自监督啦

摘要：何凯明从 CVPR 2020 上发表的 MoCo V1（Momentum Contrast for Unsupervised Visual Representation Learning），到前几天挂在arxiv上面的 MoCo V3（An Empirical Study of Training Self-Supervised Visual Transformers），MoCo一共走过了三个版本。今天介绍 MoCo 系列第一版 MoCo v1 就是在 SimCLR 发表前经典的图像自监督学习方法，MoCo v1 和 v2 是针对 CNN 设计的，而 MoCo v3 是针对 Transformer 结构设计的，反映了 MoCo 系列对视觉模型的普适性。阅读全文

posted @ 2022-07-18 22:11 ZOMI酱酱阅读(1415) 评论(0) 推荐(0)

Vision Transformer图像分类(MindSpore实现)

摘要：Vision Transformer（ViT）简介近些年，随着基于自注意（Self-Attention）结构的模型的发展，特别是Transformer模型的提出，极大的促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性，它已经能够训练具有超过100B参数的空前规模的模型阅读全文

posted @ 2022-05-13 13:18 ZOMI酱酱阅读(1131) 评论(0) 推荐(1)

随笔分类 - AI算法

公告