[重读经典论文]VIT

参考博客：Vision Transformer详解

参考视频：11.1 Vision Transformer(vit)网络详解

基本流程：

提取embedding：将原图分为若干patch，使用convnet提取每个patch的特征作为embedding，然后在前面concat一个用来分类的embedding，之后每个patch加上一个位置编码。
tranformer encode：将上一步的embedding直接喂入堆叠的transformer模块，进行encode操作。
提取分类特征：将分类的特征切片，并在后面增加一个mlp网络进行分类。

纯Vit和Hybrid的区别就是前面提取embedding是用一个简单的conv模块（或者MLP）还是使用ResNet50（论文中是改造后）的复杂模型。

posted @ 2023-06-10 11:54 大师兄啊哈阅读(104) 评论(0) 编辑收藏举报

刷新页面返回顶部