2024 年 9月 12 日随笔档案 - 晓飞的算法工程笔记

2024年9月12日

SPiT：超像素驱动的非规则ViT标记化，实现更真实的图像理解 | ECCV 2024

摘要： Vision Transformer(ViT) 架构传统上采用基于网格的方法进行标记化，而不考虑图像的语义内容。论文提出了一种模块化的超像素非规则标记化策略，该策略将标记化和特征提取解耦，与当前将两者视为不可分割整体的方法形成了对比。通过使用在线内容感知标记化以及尺度和形状不变的位置嵌入，与基于图像阅读全文

posted @ 2024-09-12 12:10 晓飞的算法工程笔记阅读(121) 评论(0) 推荐(0) 编辑

晓飞的算法工程笔记

公告