论文阅读笔记(八)【IEEEAccess2019】:High-Resolution and Low-Resolution Video Person Re-Identification: A Benchmark

Introduction

(1)Motivation:

监控视频中的行人,有的比较清晰,有的因为距离较远非常模糊. 在高低分辨率方面的行人重识别缺乏数据集和研究.

 

(2)Contribution:

① 提供了一个关于高低分辨率问题(person re-identification between low-resolution and high-resolution,PRLHV)的新数据集,即 HLVID.

② 提出了集合间半耦合映射距离矩阵学习方法(semi-coupled mapping based set-to-set distance learning approach,SMDL).

 

HLVID DataSet

记录人数:200人,50656张image,平均长度为126帧.

相机:2个,Camera A:1920*1080,Camera B:640*480.

行人帧的规格:高分辨率帧(HR):44*120 到 173*258,平均 105*203;低分辨率帧(LR):8*19 到 19*31,平均 11*21. 高分辨率帧的数量约为低分辨率数量的91倍.

 

Approach

(1)SMDL方法:

① 目标函数(假设相机A拍摄的数据为高分辨率,B拍摄的数据为低分辨率):

其中 W 表示距离矩阵,V表示高低分辨率对半耦合映射矩阵. 下文具体介绍目标函数中的两项.

 

② 半耦合映射项:

学习矩阵 V 的作用是将低分辨率行人的特征向着相匹配的高分辨率行人靠近.

其中 S 为匹配的视频对,,ni 为 Xi 的特征数量.

 

③ 距离区分度项:(不理解为什么要用 Ø,而不是用相同的 V,但下面的求导过程,两者又是等价的)

其中 D 为不匹配集合,d(.) 为马氏距离.

应用set-to-set distance model(SSD)计算视频间距离:(SSD模型待学习)

其中,a^、b^ 为系数向量,可以通过SSD模型计算得出(参考【From Point to Set: Extend the Learning of Distance Metrics;ICCV2013】).

SSD模型的参数计算概述:

其中:

 

④ 目标函数的具体化:

【注:矩阵的迹运算】

原计算为 XT*W*WT*X = (WT*X)T(WT*X) ,该结果预期是横向量*列向量,最终为实数,

这里看做 tr(WT*X*XT*W) = tr((WT*X) (WT*X)T),该结果预期是列向量*横向量,为矩阵,但迹运算也能得到相同的实数.

 

 (2)优化模型:

① 确定 V 更新 W:

目标函数转化:

其中:

通过构造拉格朗日函数并求导,可得解:

转为求解特征向量.

 

② 确定 W 更新 V:

对目标函数进行求导,得:

导数为零,进行改写:

上式为标准西尔维斯特方程.(Sylvester,解法很多,尚未看懂)

 

③ 算法过程:

 

(3)识别过程:

通过训练得到的 W、V 计算距离,挑选出距离最近的视频:

.

 

Experiment

(1)实验设置:

① 特征提取:STFV3D、LOMO、deeply-learning.

步态周期:FEP(Flow Energy Profile)

② 参数设置:β = 0.05;γ = 0.4;η = 0.03. 使用 5-fold cross validation.

③ 对比方法:STFV3D、KISSME、XQDA、TDL、JDML(常规方法);RNNCNN、ASTPN、PCB(深度学习方法).

 

(2)实验结果:

 

posted @ 2019-12-10 16:29  橙同学的学习笔记  阅读(581)  评论(0编辑  收藏  举报