摘要: VIT在归纳偏置方面存在空间相关性和信道表示的多样性两大缺陷。所以论文提出了动态混合视觉变压器(DHVT)来增强这两种感应偏差。 在空间方面,采用混合结构,将卷积集成到补丁嵌入和多层感知器模块中,迫使模型捕获令牌特征及其相邻特征。 在信道方面,引入了MLP中的动态特征聚合模块和多头注意力模块中全新的 阅读全文
posted @ 2023-05-31 09:53 deephub 阅读(22) 评论(0) 推荐(0) 编辑