论文阅读笔记（五十七）【ICCVW2019】：Fusing Two Directions in Cross-domain Adaption for Real Life Person Search by Language

Introduction

本文认为文本-图像reid的难点包含两方面：1) 文本和图像两者特征差异，2) 域适应 (比如一些文本在训练过程中没有遇到，在测试时就难以适应)。

本文的贡献：1) 提出了一个基于文本的行人检索框架；2) 提出了一个Cross-domain Bi-directional Adaption (CBA)方法来解决域适应的问题。

Proposed Approach

框架结构比较简单，图像采用CNN提取特征，文本采用RNN，在stage1采用交叉熵损失，在stage2再结合进去三元组损失。三元组损失中距离度量函数S采用了consin距离。

现有的域适应方法只考虑将 source domain 迁移到 target domain，作者提出的CBA方法结合了双向的domain迁移。

1）source→target：

CNN采用ResNet，RNN采用Bi-GRU。首先在CUHK-PEDES上训练两个编码器训练特征提取；再在MSMT17上训练图像编码器 (CNN) 的域适应能力 (文中没有具体介绍域适应的步骤)；最后再用适应后的图像编码器，结合之前的文本编码器再次训练，这一步中图像编码器是参数固定的。

2) target→source：

CNN采用Osnet在MSMT17进行预训练 (感觉这样训练不能叫跨域吧？)，提取视觉特征，再结合DeepMAR提取属性特征 (这里作者采用了两个在不同数据集上预训练的子模型，区别在于属性的多样性)，级联后压缩成新的视觉特征。RNN采用了Bi-LSTM提取文本特征。两者在CUHK-PEDES上进行训练。

Experiments

表1：没有设置域适应

posted @ 2020-12-28 10:07 橙同学的学习笔记阅读(263) 评论(0) 编辑收藏举报

刷新页面返回顶部

橙同学的学习笔记

论文阅读笔记（五十七）【ICCVW2019】：Fusing Two Directions in Cross-domain Adaption for Real Life Person Search by Language

公告