摘要:
Introduction 作者把Vision Transformer (ViT) 应用到目标重识别任务上。ViT在图像分类任务上首次得到应用,它将图像切割成若干小块,每个小块拉成序列,输入到transformer中。在ReID任务中,空间的对齐对于特征学习而言非常重要,因此把transformer应 阅读全文
摘要:
Introduction 作者提出了一个新的跨模态检索框架 Adversarial Cross-Model Retrieval (ACMR),其利用对抗学习来缩小不同模态特征的gap。下图为框架图: Proposed Method 问题定义: 每对样本的特征定义为:,每对样本搭配一个语义标签向量,其 阅读全文