Vision Transformer源码阅读笔记
代码:
首先阅读文件vit_model.py
VIT模型中输入图片的大小是固定的,所以如果大小不对,就要报错
【函数中卷积核太大,能不能换成3x3的】
【每一个patch都是同一组卷积核卷积得到的,每个patch对应于原图的不同区域,区域之间不重叠,如果重叠,效果会不会更好?】
对代码进行说明
代码:
首先阅读文件vit_model.py
VIT模型中输入图片的大小是固定的,所以如果大小不对,就要报错
【函数中卷积核太大,能不能换成3x3的】
【每一个patch都是同一组卷积核卷积得到的,每个patch对应于原图的不同区域,区域之间不重叠,如果重叠,效果会不会更好?】
对代码进行说明