论文阅读笔记（七十四）【CVPR2021】：CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification

Introduction

当下众多方法采用双流网络结构来解决RGB-IR跨模态问题。作者通过研究发现，BN层在学习模态分布中发挥着至关重要的作用。对于每一个BN都要设置是否为分离。ResNet包含了53个BN层，因此存在2^53种可能性。作者为此设计了CM-NAS网络来自动搜索最佳的组合。

Method

(1) 手动设计架构分析：

作者设计了如下实验，从图(a)发现：

① 分离一个BN，会比Baseline性能更好；

② 分离不同块的BN，会带来不同的性能，因此需要合理设置部分BN进行分离；

③ 只分离BN，会比分离整个Block性能更好。

从图(b)-(f)发现：分离两个BN，往往比分离一个BN性能更好。

(2) Cross-Modality NAS:

和代表两种候选分支。当满足时，则表示采用BN分离，当满足时，则表示采用BN共享。这两个参数设置为[0, 1]之间，通过softmax得出候选分支的概率值：

最终通过加权求和输出结果：

【对于上面的图，我存在一个疑问：为什么是把两个不同模态的输出concat？】

这里通过验证集，对α这些参数进行训练：

最终在测试时，仅选择概率值更高的分支。

(3) 目标函数：

采用CMMD损失(Class-specific Maximum Mean Discrepancy)，其中mc和nc分别表示ID=c的样本数，为RKHS(reproducing kernel hilbert space)映射函数：

考虑到特征相关性，作者约束了VIS和IR模态特征相关性的一致性，具体如下：

定义如下投影矩阵：

相似度矩阵为：

进行L2归一化：

对相关性进行一致性约束：

Experiment

posted @ 2021-05-31 17:32 橙同学的学习笔记阅读(810) 评论(0) 编辑收藏举报

刷新页面返回顶部

橙同学的学习笔记