02 2021 档案
摘要:Introduction 作者把Vision Transformer (ViT) 应用到目标重识别任务上。ViT在图像分类任务上首次得到应用,它将图像切割成若干小块,每个小块拉成序列,输入到transformer中。在ReID任务中,空间的对齐对于特征学习而言非常重要,因此把transformer应
阅读全文
摘要:Introduction 作者提出了一个新的跨模态检索框架 Adversarial Cross-Model Retrieval (ACMR),其利用对抗学习来缩小不同模态特征的gap。下图为框架图: Proposed Method 问题定义: 每对样本的特征定义为:,每对样本搭配一个语义标签向量,其
阅读全文
摘要:Introduction 图文检索问题上存在两个核心挑战:准确率以及速度。作者基于transformer提出了VisualSparta模型(Sparse Transformer Fragment-level Matching),兼顾了准确率和检索速度。本文的贡献包括: 1) 提出了一个新的基于片段交
阅读全文
摘要:Introduction 本文提出了一个两阶段的identity-aware图文匹配框架: 第一阶段通过引入Cross-Modal Cross Entropy (CMCE) 损失来学习identity-aware特征表示。训练得到初始的匹配结果。但作者认为第一阶段匹配的结果只是粗略的,图文特征不能紧
阅读全文