摘要: 论文将Multiscale Vision Transformers (MViTv2) 作为图像和视频分类以及对象检测的统一架构进行研究,结合分解的相对位置编码和残差池化连接提出了MViT的改进版本 来源:晓飞的算法工程笔记 公众号 论文: MViTv2: Improved Multiscale Vi 阅读全文
posted @ 2024-07-18 12:28 晓飞的算法工程笔记 阅读(421) 评论(0) 推荐(0) 编辑