[重读经典论文]VIT
参考博客:Vision Transformer详解
参考视频:11.1 Vision Transformer(vit)网络详解
基本流程:
- 提取embedding:将原图分为若干patch,使用convnet提取每个patch的特征作为embedding,然后在前面concat一个用来分类的embedding,之后每个patch加上一个位置编码。
- tranformer encode:将上一步的embedding直接喂入堆叠的transformer模块,进行encode操作。
- 提取分类特征:将分类的特征切片,并在后面增加一个mlp网络进行分类。
纯Vit和Hybrid的区别就是前面提取embedding是用一个简单的conv模块(或者MLP)还是使用ResNet50(论文中是改造后)的复杂模型。
本文版权归作者(https://www.cnblogs.com/harrymore/)和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接,如有问题, 可邮件(harrymore@126.com)咨询.