摘要: ​ 前言 ViT通过简单地将图像分割成固定长度的tokens,并使用transformer来学习这些tokens之间的关系。tokens化可能会破坏对象结构,将网格分配给背景等不感兴趣的区域,并引入干扰信号。 为了缓解上述问题,本文提出了一种迭代渐进采样策略来定位区分区域。在每次迭代中,当前采样步骤 阅读全文
posted @ 2021-12-01 17:19 CV技术指南(公众号) 阅读(214) 评论(0) 推荐(0) 编辑