摘要: ​ 前言 本文介绍一种新的tokens-to-token Vision Transformer(T2T-ViT),T2T-ViT将原始ViT的参数数量和MAC减少了一半,同时在ImageNet上从头开始训练时实现了3.0%以上的改进。通过直接在ImageNet上进行训练,它的性能也优于ResNet, 阅读全文
posted @ 2021-12-21 22:45 CV技术指南(公众号) 阅读(694) 评论(0) 推荐(0) 编辑