Vision Transformer源码阅读笔记

代码：

首先阅读文件vit_model.py

VIT模型中输入图片的大小是固定的，所以如果大小不对，就要报错

【函数中卷积核太大，能不能换成3x3的】
【每一个patch都是同一组卷积核卷积得到的，每个patch对应于原图的不同区域，区域之间不重叠，如果重叠，效果会不会更好？】

对代码进行说明

posted @ 2022-10-11 20:06 好人~ 阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

codingbigdog