橙同学的学习笔记

2021年4月1日

论文阅读笔记（六十七）【arXiv2021】：Contextual Non-Local Alignment over Full-Scale Representation for Text-Based Person Search

摘要： Introduction 1) Motivation：现有大部分visual textual跨模态方法只采用了单一尺度的特征，比如只采用全局尺度或者只采用局部尺度。本文提出了一种动态对齐图文多尺度特征的方法：Non-local Alignment over Full-Scale Represent 阅读全文

posted @ 2021-04-01 17:05 橙同学的学习笔记阅读(719) 评论(0) 推荐(0) 编辑

2021年3月14日

论文阅读笔记（六十六）【ICCV2019】：Adversarial Representation Learning for Text-to-Image Matching

摘要： Methodology 作者提出TIMAM (Text-Image Modality Adversarial Matching)方法，比较简洁明了，具体包含三个部分：（1）特征提取器：文本采用BERT提取词向量，再输入LSTM提取文本特征；图像采用ResNet101提取特征。（2）采用ID损阅读全文

posted @ 2021-03-14 15:27 橙同学的学习笔记阅读(576) 评论(0) 推荐(0) 编辑

2021年3月1日

论文阅读笔记（六十五）【ECCV2018】：Deep Cross-Modal Projection Learning for Image-Text Matching

摘要： Introduction 对于image-text embedding learning，作者提出了 cross-modal projection matching (CMPM) loss 和 cross-modal projection classification (CMPC) loss。前者最阅读全文

posted @ 2021-03-01 15:57 橙同学的学习笔记阅读(1433) 评论(0) 推荐(0) 编辑

2021年2月21日

论文阅读笔记（六十四）【arXiv2021】：TransReID: Transformer-based Object Re-Identification

摘要： Introduction 作者把Vision Transformer (ViT) 应用到目标重识别任务上。ViT在图像分类任务上首次得到应用，它将图像切割成若干小块，每个小块拉成序列，输入到transformer中。在ReID任务中，空间的对齐对于特征学习而言非常重要，因此把transformer应阅读全文

posted @ 2021-02-21 22:07 橙同学的学习笔记阅读(2277) 评论(0) 推荐(0) 编辑

论文阅读笔记（六十三）【ACMMM2017】：Adversarial Cross-Modal Retrieval

摘要： Introduction 作者提出了一个新的跨模态检索框架 Adversarial Cross-Model Retrieval (ACMR)，其利用对抗学习来缩小不同模态特征的gap。下图为框架图： Proposed Method 问题定义：每对样本的特征定义为：，每对样本搭配一个语义标签向量，其阅读全文

posted @ 2021-02-21 14:59 橙同学的学习笔记阅读(623) 评论(0) 推荐(0) 编辑

2021年2月19日

论文阅读笔记（六十二）【arXiv2021】：VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search

摘要： Introduction 图文检索问题上存在两个核心挑战：准确率以及速度。作者基于transformer提出了VisualSparta模型（Sparse Transformer Fragment-level Matching），兼顾了准确率和检索速度。本文的贡献包括： 1) 提出了一个新的基于片段交阅读全文

posted @ 2021-02-19 16:58 橙同学的学习笔记阅读(395) 评论(0) 推荐(0) 编辑

2021年2月4日

论文阅读笔记（六十一）【ICCV2017】：Identity-Aware Textual-Visual Matching with Latent Co-attention

摘要： Introduction 本文提出了一个两阶段的identity-aware图文匹配框架：第一阶段通过引入Cross-Modal Cross Entropy (CMCE) 损失来学习identity-aware特征表示。训练得到初始的匹配结果。但作者认为第一阶段匹配的结果只是粗略的，图文特征不能紧阅读全文

posted @ 2021-02-04 19:50 橙同学的学习笔记阅读(315) 评论(0) 推荐(0) 编辑

2021年1月23日

论文阅读笔记（六十）【arXiv2019】：Improving Description-based Person Re-identification by Multi-granularity Image-text Alignments

摘要： Introduction 作者认为现有方法没有考虑跨模态之间局部与全局的关系，比如下图的一些情况。为此作者提出了Multi-granularity Image-text Alignment (MIA) 方法实现global-global、global-local、local-local三种层面的对阅读全文

posted @ 2021-01-23 20:15 橙同学的学习笔记阅读(394) 评论(0) 推荐(0) 编辑

2021年1月22日

论文阅读笔记（五十九）【ACM T MULTIM COMPUT 2018】：Dual-path Convolutional Image-Text Embeddings with Instance Loss

摘要： Introduction 作者认为目前广泛应用在text-image匹配中的ranking loss存在一个问题，即忽视了模态内的特征分布，可能造成图像域中两个相似图像难以得到区分。本文的贡献包括以下三个方面： 1) 提出了一个名为instance loss的分类损失，挖掘同模态内的细微差异； 2 阅读全文

posted @ 2021-01-22 11:50 橙同学的学习笔记阅读(839) 评论(0) 推荐(0) 编辑

2021年1月1日

论文阅读笔记（五十八）【arXiv2019】：Visual-Textual Association with Hardest and Semi-Hard Negative Pairs Mining for Person Search

摘要： Introduction 提出了一个Smoothed Global Maximum Pooling (S-GMP)，使得提取的视觉特征与文本特征更加一致；提出一个基于bi-LSTM的memory attention模块，使得提取的语义特征更具有针对性；在损失函数上，结合了单模态三元组损失和跨模态难阅读全文

posted @ 2021-01-01 20:54 橙同学的学习笔记阅读(393) 评论(0) 推荐(0) 编辑

橙同学的学习笔记

公告