论文阅读笔记(二十八)【IJCAI2018】:Cross-Modality Person Re-Identification with Generative Adversarial Training
Introduction
(1)Motivation:
当前很少的ReID工作关注到了跨模态的匹配(cross-modality)。作者的工作集中在RGB图像和IR图像的匹配上,如下图示例:
(2)Contribution:
① 设计了跨模态生成对抗网络cmGAN,也是首次采用GAN来解决跨模态ReID问题;
② 设计了一个联合损失函数,结合了id损失和跨模态三元组损失;
The Proposed cmGAN
(1)问题定义:
RGB图像集合定义为 V,IR图像集合定义为 I,多模态集合可以表示为:,其中表示训练集,表示测试集。为RGB图像提取的特征向量,为IR图像提取的特征向量。假定包含 n 个训练图像,对应的label为。
(2)提出的方法:
① 框架:
② 生成器:
上述的网络通过softmax和全局平均池化,输出每个ID的概率,类内特征投影损失为:
其中 p 表示该图片属于任意一个ID的概率,可以理解为:log部分是 M 个行人对应的两张不同模态的图片被判为不同ID的可能性,再同它本身的标签相乘,可能性和标签视为向量的相乘,得到了 M 个行人预测正确的可能性总和。但有一个不理解的地方:y的下标为什么是 i ?
令输入的不同模态特征为:或,则三元组损失为:
两个损失函数进行结合,得到生成器的目标函数:
③ 判别器:
用来判断特征向量是否属于同一个模态,判别损失为:
不理解 m 的下标为什么是 i ?而且RGB和IR的 m 不应该指定同一个?
(3)训练算法:
分成以下两步:
先训练生成器,使得生成器能够让不同模态的同ID行人更靠近;再训练判别器,使其能够很好的分辨输入的图片是RGB还是IR。
算法流程:
Experiment
(1)实验设置:
① 数据集设置:SYSU RGB-IR RE-ID;
② 实验细节:采用ResNet-50作为基础网络;
③ 参数设置:batch size = 20,generative model training step K = 5,γ = 0.05,ξ = [0.7, 0.9, 1.2, 1.4, 1.5, 1.6](1.4最佳),α:β = 1:1,generator lr = 0.0001,discriminator lr= 0.001,epochs = 2000。
(2)实验结果: