论文阅读笔记(七十四)【CVPR2021】:CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification
Introduction
当下众多方法采用双流网络结构来解决RGB-IR跨模态问题。作者通过研究发现,BN层在学习模态分布中发挥着至关重要的作用。对于每一个BN都要设置是否为分离。ResNet包含了53个BN层,因此存在2^53种可能性。作者为此设计了CM-NAS网络来自动搜索最佳的组合。
Method
(1) 手动设计架构分析:
作者设计了如下实验,从图(a)发现:
① 分离一个BN,会比Baseline性能更好;
② 分离不同块的BN,会带来不同的性能,因此需要合理设置部分BN进行分离;
③ 只分离BN,会比分离整个Block性能更好。
从图(b)-(f)发现:分离两个BN,往往比分离一个BN性能更好。
(2) Cross-Modality NAS:
和代表两种候选分支。当满足时,则表示采用BN分离,当满足时,则表示采用BN共享。这两个参数设置为[0, 1]之间,通过softmax得出候选分支的概率值:
最终通过加权求和输出结果:
【对于上面的图,我存在一个疑问:为什么是把两个不同模态的输出concat?】
这里通过验证集,对α这些参数进行训练:
最终在测试时,仅选择概率值更高的分支。
(3) 目标函数:
采用CMMD损失(Class-specific Maximum Mean Discrepancy),其中mc和nc分别表示ID=c的样本数,为RKHS(reproducing kernel hilbert space)映射函数:
考虑到特征相关性,作者约束了VIS和IR模态特征相关性的一致性,具体如下:
定义如下投影矩阵:
相似度矩阵为:
进行L2归一化:
对相关性进行一致性约束:
Experiment