[重读经典论文]VIT

参考博客:Vision Transformer详解

参考视频:11.1 Vision Transformer(vit)网络详解

基本流程:

  • 提取embedding:将原图分为若干patch,使用convnet提取每个patch的特征作为embedding,然后在前面concat一个用来分类的embedding,之后每个patch加上一个位置编码。
  • tranformer encode:将上一步的embedding直接喂入堆叠的transformer模块,进行encode操作。
  • 提取分类特征:将分类的特征切片,并在后面增加一个mlp网络进行分类。

纯Vit和Hybrid的区别就是前面提取embedding是用一个简单的conv模块(或者MLP)还是使用ResNet50(论文中是改造后)的复杂模型。

微信截图_20230610114753

posted @   大师兄啊哈  阅读(149)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
历史上的今天:
2021-06-10 数字图像处理中的混叠
2021-06-10 RoIAlign理解
点击右上角即可分享
微信分享提示