摘要: 论文提出了T2T-ViT模型,引入tokens-to-token(T2T)模块有效地融合图像的结构信息,同时借鉴CNN结果设计了deep-narrow的ViT主干网络,增强特征的丰富性。在ImageNet上从零训练时,T2T-ViT取得了优于ResNets的性能MobileNets性能相当 来源:晓 阅读全文
posted @ 2024-05-20 12:30 晓飞的算法工程笔记 阅读(213) 评论(0) 推荐(0) 编辑