15 cvpr An Improved Deep Learning Architecture for Person Re-Identification

http://www.umiacs.umd.edu/~ejaz/
* 也是同时学习feature和metric
* 输入一对图片,输出是否是同一个人
* 包含了一个新的层: include a layer that computes cross-input neighborhood differences
capture local relationships between the two input images based on midlevel features from each input image 
* A high-level summary of the outputs of this layer is computed by a layer of patch summary features 
* 在比较大的数据集CUHK03,中等数据集CUHK01取得较好的结果,在无关的大数据集上预训练然后在小数据集上fine-tune后也在小数据集(VIPeR)上有comparable to the state of art的性能

* Person Re-id的定义:the problem of identifying people across images that have been taken using different cameras, or across time using a single camera
* 难点: 由于光照和视角等原因,同一个人变化很大,不同人的样子可能很像
 
* 一般是输入两张图片,计算它们的相似度或者判断他们是同一类或者不是同一类
 
cross-inputneighborhood difference
 f只有中心(x,y)的一个值,5x5的每个元素都是这个值。 g是(x,y)为中心的5x5邻域。
这种操作是非对称的,所以反过来再做一次
如果两个输入是25通道,则结果有50通道。
输入12x37x25-->输出12x37x5x5, 共50通道
这一层之后过一个ReLU

然后过一个patch summary layer, 通过卷积实现
对K',L'也一样,所以结果应该有50个通道的

visualization of features
 
 visualization of weights

给正样本对做data augmentation,但仍然是不平衡的

因此采用hard negative mining
随机采样负样本对,使负样本对是扩充后的正样本对的2倍(1倍会不会更好?)
用这些训练模型,但不是最优的,
用这个模型去分类负样本对,找出网络表现最差的,然后用这些样本 只重训练顶层的fc(实验说明比重训连整个网络要更有效,这也相当于fine-tune)

对于很小的数据集,用大数据集训练的模型(在hard-negative mining之后)初始化,然后fine-tuning,此时learning rate比原来小10倍,0.001

 
这篇文章提出了一个可能的改进方向,对不同的身体部位训练不同的模型, 然后将不同部位的分数组合起来得到最后的决策,这对于实际场景中有严重的occlusion或者对于 图片中的人在一系列时刻做不同动作的(比如某一时刻坐着,另一时刻站着)的情况可能会有帮助。 





                         
 









posted on 2016-08-29 00:19  LaVallée  阅读(1048)  评论(0编辑  收藏  举报

导航