摘要:
Introduction 1) Motivation: 现有大部分visual textual跨模态方法只采用了单一尺度的特征,比如只采用全局尺度或者只采用局部尺度。本文提出了一种动态对齐图文多尺度特征的方法:Non-local Alignment over Full-Scale Represent 阅读全文
摘要:
Methodology 作者提出TIMAM (Text-Image Modality Adversarial Matching)方法,比较简洁明了,具体包含三个部分: (1)特征提取器: 文本采用BERT提取词向量,再输入LSTM提取文本特征; 图像采用ResNet101提取特征。 (2)采用ID损 阅读全文
摘要:
Introduction 对于image-text embedding learning,作者提出了 cross-modal projection matching (CMPM) loss 和 cross-modal projection classification (CMPC) loss。前者最 阅读全文
摘要:
Introduction 作者把Vision Transformer (ViT) 应用到目标重识别任务上。ViT在图像分类任务上首次得到应用,它将图像切割成若干小块,每个小块拉成序列,输入到transformer中。在ReID任务中,空间的对齐对于特征学习而言非常重要,因此把transformer应 阅读全文
摘要:
Introduction 作者提出了一个新的跨模态检索框架 Adversarial Cross-Model Retrieval (ACMR),其利用对抗学习来缩小不同模态特征的gap。下图为框架图: Proposed Method 问题定义: 每对样本的特征定义为:,每对样本搭配一个语义标签向量,其 阅读全文
摘要:
Introduction 图文检索问题上存在两个核心挑战:准确率以及速度。作者基于transformer提出了VisualSparta模型(Sparse Transformer Fragment-level Matching),兼顾了准确率和检索速度。本文的贡献包括: 1) 提出了一个新的基于片段交 阅读全文
摘要:
Introduction 本文提出了一个两阶段的identity-aware图文匹配框架: 第一阶段通过引入Cross-Modal Cross Entropy (CMCE) 损失来学习identity-aware特征表示。训练得到初始的匹配结果。但作者认为第一阶段匹配的结果只是粗略的,图文特征不能紧 阅读全文
摘要:
Introduction 作者认为现有方法没有考虑跨模态之间局部与全局的关系,比如下图的一些情况。 为此作者提出了Multi-granularity Image-text Alignment (MIA) 方法实现global-global、global-local、local-local三种层面的对 阅读全文
摘要:
Introduction 作者认为目前广泛应用在text-image匹配中的ranking loss存在一个问题,即忽视了模态内的特征分布,可能造成图像域中两个相似图像难以得到区分。 本文的贡献包括以下三个方面: 1) 提出了一个名为instance loss的分类损失,挖掘同模态内的细微差异; 2 阅读全文
摘要:
Introduction 提出了一个Smoothed Global Maximum Pooling (S-GMP),使得提取的视觉特征与文本特征更加一致; 提出一个基于bi-LSTM的memory attention模块,使得提取的语义特征更具有针对性;在损失函数上,结合了单模态三元组损失和跨模态难 阅读全文