摘要: 首先将图片分为16*16的小格 如果直接将图片作为transformer的输入,会有一个问题,序列长度太大,vit将很多图片打成了16*16的patch ,将一个patch作为一个元素 图片224*224 vit 的全局图 vit = position embedding + class embed 阅读全文
posted @ 2022-04-26 19:20 十点三十睡觉 阅读(1040) 评论(0) 推荐(0) 编辑