[重读经典论文]VIT

参考博客:Vision Transformer详解

参考视频:11.1 Vision Transformer(vit)网络详解

基本流程:

  • 提取embedding:将原图分为若干patch,使用convnet提取每个patch的特征作为embedding,然后在前面concat一个用来分类的embedding,之后每个patch加上一个位置编码。
  • tranformer encode:将上一步的embedding直接喂入堆叠的transformer模块,进行encode操作。
  • 提取分类特征:将分类的特征切片,并在后面增加一个mlp网络进行分类。

纯Vit和Hybrid的区别就是前面提取embedding是用一个简单的conv模块(或者MLP)还是使用ResNet50(论文中是改造后)的复杂模型。

微信截图_20230610114753

posted @ 2023-06-10 11:54  大师兄啊哈  阅读(104)  评论(0编辑  收藏  举报