A1A1AA  

1. 概要

这篇论文相当于是跨模态行人重识别的开山之作,在此之前几乎没有人研究跨模态的行人重识别。
本文主要贡献有:
1.提出了用于跨模态re-id的数据集SYSU-MM01
2.提出了deep zero-padding(零填充),在one-stream网络中使用deep zero-padding使得其性能比two-stream网络要好

2. 思想

文中讲到,当前对于行人重识别(非跨模态)的网络可以分为三个部分:
 1.one-stream
 2.two-stream
 3.Asymmetric FC layer(非对称全连接)

那么本文就是将deep zero-padding用于one-stream网络,如下图所示:

那么什么叫做deep zero-padding呢?看这个图

红色框、蓝色框代表不同模态数据,绿色框表示公共特征。虚线表示zero-padding连接

对于zero-padding,我的理解就是, 原本是两个不同模态的数据(图中domain1,domain2),为了要把它们放入one-stream网络学习,但是如果直接将两个模态的数据一起放入的话效果不好,于是
作者就想到了构造一个新的输入形式,原本是[domain1]或[domain2]的形式输入one-stream网络,但是现在变成了[domain1,domain2]的形式输入。

例如:假设有可见光图像(rgb)和红外线图像(ir),它们是不同的模态,即它们对应domain1和domain2。
  那么如果一个rgb的图片要输入网络训练,但是没有红外线图片怎么办呢?那就zero-padding吧。也就是此时的输入形式为[rgb,0]
  相应的要输入红外图片也是一样的,[0,ir]

那么,这么做有什么好处呢?
  根据作者所说,这样做可以使得在前向和反向传播的过程中,会有rgb对应的节点,ir图片对应的节点,和共享节点,相当于是two-stream的功能。(额。。我对这个其实没理解,有没有哪个大佬可以解答
  然后作者在后面用了严格的数学梯度推导证明了,在前向传播过程和反向传播过程中,不相关的节点由于梯度为0不会更新。例如:当输入rgb图片的时候,反向传播过程中一些ir图片的特定节点的权重值不会更新。

若有错误,希望告知

posted on 2020-11-10 15:14  A1A1AA  阅读(584)  评论(0编辑  收藏  举报