摘要: 参考博客:Vision Transformer详解 参考视频:11.1 Vision Transformer(vit)网络详解 基本流程: 提取embedding:将原图分为若干patch,使用convnet提取每个patch的特征作为embedding,然后在前面concat一个用来分类的embe 阅读全文
posted @ 2023-06-10 11:54 大师兄啊哈 阅读(104) 评论(0) 推荐(0) 编辑