论文阅读笔记(七十四)【CVPR2021】:CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification

Introduction

当下众多方法采用双流网络结构来解决RGB-IR跨模态问题。作者通过研究发现,BN层在学习模态分布中发挥着至关重要的作用。对于每一个BN都要设置是否为分离。ResNet包含了53个BN层,因此存在2^53种可能性。作者为此设计了CM-NAS网络来自动搜索最佳的组合。

 

Method

(1) 手动设计架构分析:

作者设计了如下实验,从图(a)发现:

① 分离一个BN,会比Baseline性能更好;

② 分离不同块的BN,会带来不同的性能,因此需要合理设置部分BN进行分离;

③ 只分离BN,会比分离整个Block性能更好。

从图(b)-(f)发现:分离两个BN,往往比分离一个BN性能更好。

 

(2) Cross-Modality NAS:

代表两种候选分支。当满足时,则表示采用BN分离,当满足时,则表示采用BN共享。这两个参数设置为[0, 1]之间,通过softmax得出候选分支的概率值:

最终通过加权求和输出结果:

【对于上面的图,我存在一个疑问:为什么是把两个不同模态的输出concat?】

 这里通过验证集,对α这些参数进行训练:

最终在测试时,仅选择概率值更高的分支。

 

(3) 目标函数:

采用CMMD损失(Class-specific Maximum Mean Discrepancy),其中mc和nc分别表示ID=c的样本数,为RKHS(reproducing kernel hilbert space)映射函数:

考虑到特征相关性,作者约束了VIS和IR模态特征相关性的一致性,具体如下:

定义如下投影矩阵:

相似度矩阵为:

进行L2归一化:

对相关性进行一致性约束:

 

Experiment

 

posted @ 2021-05-31 17:32  橙同学的学习笔记  阅读(810)  评论(0编辑  收藏  举报