Vision Transformer源码阅读笔记

代码:

首先阅读文件vit_model.py

VIT模型中输入图片的大小是固定的,所以如果大小不对,就要报错

【函数中卷积核太大,能不能换成3x3的】
【每一个patch都是同一组卷积核卷积得到的,每个patch对应于原图的不同区域,区域之间不重叠,如果重叠,效果会不会更好?】

对代码进行说明

posted @ 2022-10-11 20:06  好人~  阅读(28)  评论(0编辑  收藏  举报