摘要: 前言 VIT在归纳偏置方面存在空间相关性和信道表示的多样性两大缺陷。所以论文提出了动态混合视觉变压器(DHVT)来增强这两种感应偏差。在空间方面,采用混合结构,将卷积集成到补丁嵌入和多层感知器模块中,迫使模型捕获令牌特征及其相邻特征。在信道方面,引入了MLP中的动态特征聚合模块和多头注意力模块中全新 阅读全文
posted @ 2023-05-31 18:30 CV技术指南(公众号) 阅读(86) 评论(0) 推荐(0) 编辑