【Re-id】An Enhanced Deep Feature Representation for Person Re-identification

 
摘要
     Feature representation(特征表达) 和 metric learning (度量学习) 是 person  re-Identification models 中两个关键的部分。本文关注在 feture representation 并指出 hand-crafted histogram features 与CNN features 是互补的。我们提出一个特征提取网络 Feature Fusion Net(FFN)来表达行人图像。在FFN中,反向传播使得CNN features 被手动特征约束。使用color histogram features(颜色直方图特征:RGB,HSV,YCbCr,Lab 和 YIQ)和 texture feature(纹理特征:multi-scale and multi-orientation Gabor features),这个特征更具有区分性和紧凑性。在三个数据集(VIPeR,CUHK01,PRID450s)上证明其有效性。
1.Introduction
     最近五年re-id得到广泛的研究,Person re-Identification 目的在于在不同视角的监控摄像机下匹配 people。为了解决re-Identification 问题,现有的方法探索 cross-view invariant features [9, 7, 27, 19, 14, 33, 12, 20,18]或 cross-view robust metrics [4, 5, 12, 17, 33, 23, 3, 28,34, 25]  。最近,CNN 被采用到 person re-Identification 中,使用bp进行动态调整参数。
     然而,在现实的场景中的person re-Identification,一个人的外表经常在不重叠的摄像机视角会经历大的变化,这是由于视角、光照、杂乱的背景和闭塞引起的明显变化。串联手动的特征,eg: RGB,HSV颜色空间和LBP 描述子来克服在re-Identification任务中多视角外表的变化,有时这将会是更有特色的、可靠的。
     为了有效结合手动特征和深度特征,我们研究 multi-colorspace hand-crafted features(ELF16) 和 CNN features 的融合和互补性,并提出FFN网络来使用手动的特征来调整CNN 过程使得CNN features 与手动特征互补。在从FFN提取完特征,使用传统的 metric learning 来提升性能。在三个person re-id数据集(VIPeR, CUHK01, PRID450s)上证明其有效性。在三个数据集上比最先进的方法比,显著提高了 Rank-1 matching rate指标为(8.09%, 7.98% and 11.2%)。总之,hand-crafted features could improve the extraction process of CNN featuresin FFN, achieving a more robust image representation.
2.相关工作
     Hand-crafted Features.
     Color 和 texture 是图像表示中最有用的两个特征。eg:HSV 和 LAB 颜色直方图用来测量图像中颜色的信息。LBP直方图[22] 和 Gabor filter 描述图像的纹理特征。不同特征的结合可以产生更加有效的特征[27, 9, 7, 9, 32, 33, 20]。
     针对person re-id 设计的特征显著地提高了 the matching rate。Localdescriptors encoded by Fisher Vectors (LDFV) [19] 建立在FIsher Vector上。Color invariants (ColorInv) [14] 使用color distributions 作为唯一的线索来达到好的识别性能。Symmetry-driven accumulationof local features (SDALF) [7] 证明了segments 的对称结构可以显著地提高性能和一个累积特征的方法可以提供更加鲁棒性来应对图像的畸变。Local maximal occurrence features(LOMO) [18] 分析了 the horizontal occurrence of localfeatures and maximizes the occurrence to stably representre-identification images。
     Deep Learning.
     较少使用CNN在person  re-id方面。Li et al.提出使用成对的filter的DNN(FPNN)[16],它使用patch-matching layer 和 maxout pooling layer 来处理姿态和视角的变化。他是第一个在person re-id问题上使用深度学习的work。Ahmed et al. 通过专门设计cross-input neighbourhood difference layer[1]来提升深度学习网络。之后,在【26】中的 the deep metric learning 使用“siamese”深度神经结构和 a cosine layer来处理person images中大变化。Hu et al.提出一个 deep transfer metric learning(DTML) 【10】,它可以把跨领域的知识迁移到目标数据集中。   
     把 feature extraction 和 image-pair classification 结合成一个单个的CNN 网络的方法中,最常使用的是Pairwise comparison 和 symmetry structures,它们是从传统的metric learning[9, 7, 27, 19, 14, 33, 12, 20, 18,34, 25].  中继承下来的。 因为 pairwise comparison 是学习DNN的形式,需要对成对的probe image这行CNNs。对于这些工作,FFN 不需要基于成对的输入而是直接从单个图像中提取 deep features,所以可以与任何的卷积分类器相结合。
3.Methodology
3.1 Network Architecture
我们利用FFN(Feature Fusion Network)来学习特征。网络结构如下:

 

     FFN由两部分组成。第一部分使用传统的CNN(卷积、池化、激活函数)来处理输入图像;第二部分使用额外的手动特征来表示相同的图像。这两个子网络最终联系在一起来产生一个更加充分的图像描述,所以第二个部分在学习期间调整第一部分。最终,从Fusion Layer 产生一个4096D 的特征。
3.2 CNN features
  CNN 作为一个特征提取器,the body part 遭受严峻的位置错位,变形和不对准。CNN中的卷积可以允许部分的位移并随着使用更深的卷积对于视觉的改变进行缓解。多重的卷积核对行人图像提供了不同的描述。此外,Pooling 和 LRN 层提供对应描述的非线性表示,并显著较少了过拟合问题。这些层有助于构建一个稳定的CNN网络并应用到新的数据集中。
3.3 Hand-crafted Features
  网络中第二部分的手动特征广泛地应用于person re-Identification,本文使用 the Ensemble of Local Features(ELF)【9】并在【32,33】中被改进。它提取RGB,HSV 和 YCbCr histograms of 6 horizontal stripes of input image 并使用8 Garbor filters and 13 Schmid filters 来获得相应的 texture information。
我们通过提高颜色空间和stripe division【3】 来修改 ELF 特征。输入图像平均分为 16 horizontal stripes 而且我们的特征由color features(RGB、HSV、LAB、XYZ、YCbCr 和 NTSC)和 texture features(Gabor、Schmid 和 LBP)组成。对于每一个通道提取一个 16D histogram 其后是L1-norm 归一化。所有的 histograms 串联成一个单个的向量。并定义此手动特征为 ELF16.
3.4 Proposed New Features
  目的:把CNN特征和手动特征映射到一个统一的特征空间。为了使 CNN 特征与手动特征互补,提出一个特征融合的深度神经网络。在框架中,使用反向传播,整个CNN网络的参数均会受到手动特征的影响。一般来说,通过融合的CNN features 应该比 单纯的CNN特征和使用手动特征 更具有区分能力。
  Fusion Layer and Buffer Layer(融合层 和 缓冲层)Fusion Layer 使用全连接层来自适应person re-id的问题。在ELF16 特征 和 CNN特征之后有个4096D输出的全连接层(即Buffer Layer),它对融合起到了缓冲的作用。Buffer Layer 是必要的,因为它使得两个有巨大不同的特征联系起来并保证FFN的收敛(convergence)。
若Fusion Layer的输入为
此层的输出由此计算出来:
  这里的h(.)为激活函数。ReLU 和 dropout layers 也被采用,其中dropout ratio 为0.5。根据反向传播算法,第 l 层的参数在新的一次迭代之后被写为:
  其中参数α,m 和 λ 遵循【2】中的设置。
  现有的深度person re-id网络采用Deviance Loss【26】或 Maximum Mean Discrepancy【1】作为loss function(损失函数)。但是本文目的在于对每张图片有效的提取深度特征而非通过DNN执行 pairwise comparison。因此,本文使用softmax损失函数。对于一个单个的输入向量 x 和最后一层的一个单个的输出节点 j ,损失计算如下:
  网络的最后一层目的在于最小化交叉熵损失(cross-entropy loss):
  其中,输出节点的个数为 n varies on differenttraining sets as described in Section 4.
3.5 How do Hand-crafted Features Influence the Extraction of CNN Features?
  如果网络的参数受到ELF16特征的影响,那么网络参数的梯度也根据ELF特征进行调整,之后使得CNN特征与其更加的互补,因为FFN的最终目标是使得在不同图像的特征更具有差异性。
 
4. Settings for Feature Fusion Network
4.1. Training Dataset——Market-1501(最大的公共的person re-id数据集)
4.2. Training Strategies
  使用 mini-batch stochastic gradient descent (SGD) 来快速反向传播并平稳的收敛。mini-batch = 25.学习率=1e-5,比其他的CNN小。每20000次迭代学习率为原来的0.1。使用【11】产生的ImageNet模型进行微调。50000次迭代后收敛。
为了提高适用性,使用difficult samples 进行微调,其使用Hard negative mining策略。学习率为1e-6以及更少的迭代次数(大约10000)。最终loss为0.05以内。
5.Experiments——3个数据集(VIPeR、CUHK01 和 PRID450s)
三个数据集VIPeR [8], CUHK01 [15] and PRID450s [24]。均为两个不重叠的摄像机视角的图像,带有significant misalignment, light change 和 body part distortion(失真)。
  在每个实验中,随机选择数据集中的一半 Identities 作为训练集,另一半作为测试集。训练集用来训练映射矩阵W(以度量学习的方法)。测试集使用来得到最终的映射并测量输入图像对的距离。对于研究结果的可靠性和稳定性,每个实验重复10次并取计算平均 Rank-i accuracy rate。Cumulative Matching Curve (CMC)(累积匹配曲线)在图3中提供,给出了不同算法的直观比较。
  我们在实验中使用single-shot protocol,在测试阶段,从视角2选取的一张图像作为probe 所有视角1的图片作为gallery。特别地对于CUHK101数据集,有两张同一个人的图像在一个视角中,我们随机从每个identity中选取一张作为gallery。
Mirror Kernel Marginal Analysis (KMFA)【3】提供了用于person re-id 的一个高性能度量学习方法。该方法在Section5.3.2中采用并chi-square kernel embedded and parameters set to the optimal according to [3].
5.2 Features
比较:LDFV [19], gBiCov [20], ImageNet [13] CNN features(FC7 features), LOMO features [18], ELF16 features 和Ours,还有两个组成特征ELF16+CNN-FC7 和 Ours+LOMO进行比较
5.3. Evaluations on Features
5.3.1 Unsupervised Method
     图3(a)-(c)显示Ours features 与 其他的特征在L1-norm上的比较,用一个原始的非监督的观点来评估一个算法的能力。
分析:Ours显著比ELF16+CNN-FC7高的原因:(1)Ours不是简单CNN特征和ELF16特征的简单串联。(2)Buffer Layer 和 Fusion Layer自动微调每个特征,使得混合的特征更加better。
  LOMO特征不够稳定。
5.3 Metric Learning Methods
  两个广泛使用的度量学习方法:LFDA [23] and Mirror KMFA [3]。来学习每个probe图像与gallery set的距离度量。
5.4 Comparison with State-of-the-Art
  我们的模型基于Mirror KMFA, 串联our new features 和 normalized LOMO features (Ours+LOMO).

5.5 Running Time
  对于VIPeR数据集中单个48*128大小的图像的平均提取特征的时间。
通过使用 Mirror Kernel Marginal Fisher Analysis(KMFA), our proposed features significantly outperform the state-of-the-art person re-identification models on these three datasets by 8.09%, 7.98%, and 11.2% (in Rank-1 accuracy rate), respectively.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
posted @ 2017-03-28 21:12  雪域小狼  阅读(2992)  评论(0编辑  收藏  举报