摘要: Vision Transformer(ViT) 架构传统上采用基于网格的方法进行标记化,而不考虑图像的语义内容。论文提出了一种模块化的超像素非规则标记化策略,该策略将标记化和特征提取解耦,与当前将两者视为不可分割整体的方法形成了对比。通过使用在线内容感知标记化以及尺度和形状不变的位置嵌入,与基于图像 阅读全文
posted @ 2024-09-12 12:10 晓飞的算法工程笔记 阅读(121) 评论(0) 推荐(0) 编辑