Vision Transformer源码阅读笔记

代码:

首先阅读文件vit_model.py

VIT模型中输入图片的大小是固定的,所以如果大小不对,就要报错

【函数中卷积核太大,能不能换成3x3的】
【每一个patch都是同一组卷积核卷积得到的,每个patch对应于原图的不同区域,区域之间不重叠,如果重叠,效果会不会更好?】

对代码进行说明

posted @   好人~  阅读(28)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示