(CVPR2021)Learning 3D Shape Feature for Texture-insensitive Person Re-identification
论文地址:https://ieeexplore.ieee.org/document/9578604
代码:(待开源)https://github.com/TencentYoutuResearch/PersonReID-YouReID
摘要:众所周知,行人重识别(person ReID)高度依赖于服装等视觉纹理信息。尽管近年来取得了显著的进展,但大多数现有的ReID方法很少关注像换衣服和穿同一件衣服的人这样的纹理混淆情况。在本文中,我们不依赖于基于纹理的信息,而是通过利用人的三维形状信息来提高人ReID对服装纹理的鲁棒性。现有的person ReID形状学习模式要么忽略了人的三维信息,要么需要额外的物理设备来收集三维源数据。另外,我们提出了一种新的ReID学习框架,通过加入三维物体重建作为辅助任务和正则化,直接从二维图像中提取纹理不敏感的三维形状嵌入,称为三维形状学习(3DSL)。基于三维重建的正则化方法迫使ReID模型将三维形状信息与视觉纹理解耦,获得具有识别性的三维形状ReID特征。为了解决缺乏三维地面真实度的问题,我们设计了一种对抗式自监督投影(ASSP)模型,在没有地面真实度的情况下进行三维重建。在普通ReID数据集和纹理混淆数据集上的大量实验验证了该模型的有效性。
一、引言
行人重识别的目标是在分布式摄像系统捕获的现有人员集合中找到目标人员。一些作品[7,34,44,46]表明,行人重识别在很大程度上依赖于服装外观纹理,当衣服纹理混乱时,现有的大多数方法都会下降很多。考虑到人们可能会更换服装[44]或不同的人穿着非常相似的服装[46],服装纹理会让人感到困惑(见图1),对于行人重识别来说,服装纹理会变得不可靠。像嫌疑人穿着不同的衣服,或者不同的人在医院或学校穿着相似的制服这样的情况随处可见。
图1。纹理混乱的人里德的插图。当衣服的纹理具有误导性时,人体形状信息至关重要。然而,基于二维测量的形状建模无法捕获完整的形状感知,三维源数据的采集依赖于辅设备。单视图三维人体重建有助于在监控环境中学习三维形状特征。
为了扩展真实世界中人ReID的可伸缩性,在本文中,我们明确地建模了人体服装纹理之外的辨别线索,即人体形状表示。现有的研究试图通过两种方式学习形状相关特征:2D图像空间[7,34,44]和3D源数据[21,31,41]。基于2D的方法主要尝试基于视觉统计信息提取形状特征,如轮廓[44]和关键点[34],或通过对抗性特征分离[21]。这些方法只利用二维空间中的结构和形状信息,而三维信息如深度或者相关3D信息被忽视。基于3D的源数据可以从kinect摄像机[41]或比率信号[7]中收集,这有可能从全方位的地平线上捕捉到完整的形状。然而,在监视环境中收集3D数据可能是不可行的。
为了在没有额外3D设备的情况下学习3D形状表示,我们提出了一种新的特征学习模式,该模式结合了单个图像的3D人体重建[1,2,4,5,14,18,32]。我们没有从不精确的重建3D网格中提取ReID特征[50],而是训练一个ReID模型,通过将3D重建作为辅助任务和正则化添加到ReID特征学习中,直接从原始2D图像中提取纹理不敏感的3D特征。基于三维重建的正则化能够强制ReID模型将三维形状信息与视觉纹理解耦,并获得对纹理混淆的人更可靠的辨别性三维形状ReID特征。在实践中,采用多任务框架,通过识别损失(例如softmax损失和三重态损失)和三维重建损失来监督ReID特征。
训练三维人体重建的一个棘手障碍在于缺乏三维地面真实感。为了克服数据限制,根据3D重建文献[14,32],我们设计了一个称为对抗性自监督投影(ASSP)的纯无监督框架。我们首先利用外部未标记的3D数据[26]训练一个鉴别器,以对抗的方式将重建结果与真实3D参数区分开来。这可以在粗略的层次上防止不正常的姿势和形状。然后,我们引入了一个自监督学习循环,将三维重建结果重新投影到二维平面,并与二维观测值(如关键点和轮廓)相比最小化重建误差。这可以在精细的层次上进一步适合个性化3D身体。
三维人体重建倾向于获得平均形状表示,因此全局三维形状特征没有足够的辨别力。为了提高ReID的识别能力,我们提出了多粒度形状特征(MGS)学习,将全局形状特征和局部形状特征结合起来。在MGS中,全局3D形状特征对应于全局形状参数估计,部件3D形状特征用于估计细微的局部形状位移。这有助于在不同范围内捕捉三维形状特征,丰富特征的多样性。
我们的贡献总结如下:
- 我们提出了一种新的端到端架构,结合person ReID和3D人体重建来学习纹理不敏感的3D形状嵌入。我们进一步提出了一种多粒度形状(MGS)学习方法来增强人ReID的识别能力。
- 为了解决缺乏三维地面真实感的问题,我们设计了结合对抗学习和自监督投影的对抗式自监督投影(ASSP)。
普通人ReID数据集(Market1501[48],DukeMTMC ReID[51])和纹理混淆数据集(PRCC [44], VC-Clothes [39],LTCC [34], FGPR [46])的实验结果证明了所提出模型的有效性。
二、相关工作
2.1 行人重识别
行人重识别已经取得了长足的进步[9,22,29,42,45]。然而,一些作品[7,34,44,46]认为,大多数人的行人重识别方法,包括手工制作的方法[11,20,38]和深度模型[22,29],在由于缺乏专门设计的机制而导致服装纹理误导时,在性能上会退化很多。
在本文中,我们针对服装纹理混乱的ReID情况,即相同身份可能会改变服装,或者不同身份可能会穿着相似的服装。在行人重识别文献学习中,纹理不敏感表征有几个方向。基于属性的方法[23,36]在一定程度上克服了纹理偏差。Yu等人利用给定的描述从预定义服装模板数据库中执行检索[47]。但是,上述方法需要辅助注释,并且需要额外的劳动力。另一个例程致力于直接捕获服装纹理之外的身份不变形状相关表示[7,21,31,34,41,44]。现有方法依靠2D图像空间[7,34,44]或3D源数据[21,31,41]来提取形状特征。前者试图基于视觉特征[34,44]或通过对抗性特征分离[7]对形状表示进行建模。例如,Yang等人在极坐标中变换轮廓以进行形状学习[44]。受视点变化和姿态变化的限制,这种方法只能捕获部分形状表示。后者侧重于基于3D源数据直接描述形状概念,如深度图[41]、比率频率[21]和3D骨架[31]。虽然三维源数据可以反映全视图形状表示,但在实际应用中通常很难收集此类数据。在本文中,我们利用三维形状的不变性,打破了基于二维形状的限制,摆脱了额外的三维设备,因为我们使用的只是一幅图像。
2.2 单视角的行人重建
许多方法利用参数化模型(如SCAPE[3]和SMPL[25])来数字化三维人体表示。最新的方法是在3D地面真值的监督下估计SMPL模型的姿势和形状参数[5,14,19,30,32]。为了捕获更精细的细节,模型[1,2]将基本SMPL扩展到“SMPL+置换”。
一些工作已经尝试在单视图三维人体重建和SMPL模型的帮助下执行行人重识别。Zheng等人直接使用重建的三维网格作为输入来执行ReID[50]。Li等人依靠SMPL模型为ReID合成3D数据[21]。由于提取的三维重建网格不够精确,这种处理可能导致特征学习的破坏。与上述工作不同的是,我们将ReID和3D重建集成在一个统一的端到端训练框架中,可以自适应地学习更健壮的3D形状特征,减少信息丢失。
三、方法
3.1 回顾
在本文中,我们提出了一个新的框架来解决服装纹理混淆的person ReID问题,具体可分为两种情况:(1)相同的身份改变服装[44];(2) 不同身份的人穿着相同的制服[46]。
我们的主要贡献在于3D形状学习(3DSL)分支,该分支首次将person ReID和人类3D重建结合在端到端的训练框架中。3DSL的目标是学习3D形状特征,该特征不仅可以区分不同的身份,还可以估计3D模型SMPL的形状相关参数[25]。具体来说,我们训练了一系列深层网络E3D和Eshape,它们从图像中提取3D形状特征,表示为Fshape。如图2所示,除了受ReID损失(即softmax和triplet损耗)的监督外,Fshape也是3D重建子网络的输入,用于预测3D人体模型的形状参数。通过这种方式,3D人体重建任务被添加为辅助正则化器,以强制Fshape聚焦于3D形状信息。
此外,与人类重建文献[14,32]类似,为了克服缺乏3D地面真实性(例如,3D骨骼、3D点云),3D重建分支在自我监督框架中进行训练,称为对抗性自我监督投影(ASSP)。如图2所示,ASSP中进行了两种监督。首先,使用基于额外未标记3D参数训练的鉴别器D来区分基于Fshape估计的3D SMPL参数和真实3D参数。其次,ASSP将重建的三维网格重新投影到二维平面,并使用从原始RGB图像获得的二维关键点和轮廓计算二维重建误差。
由于某些RGB特征(如脸和属性)也可能是纹理不敏感的,因此我们构造了一个额外的网络分支来学习这些有用的RGB特征。在这里,我们针对三重态损耗[12]提出了一种采样策略,专门针对不同的服装纹理混淆任务设计。
3.2 3D形状学习
3D形状学习(3DSL)的分支本质上是在端到端网络中训练行人重识别和3D人体重建。
3.2.1 3D参数模型
我们选择参数化三维模型SMPL[25]作为基础模型来进行人体重建。由于SMPL的先验流形,3D人体形状的额外先验知识可以转移到ReID模型中,即使在无法获得地面真值的情况下,重建结果的完整性也将得到更好的实现。此外,SMPL中的不同参数组包含特定语义(即形状相关、姿势相关)。它帮助我们为每组参数提取特定的特征,并将与身份相关的形状特征与与身份无关的姿势特征解耦。SMPL被建模为姿态参数θ∈R24×3和形状参数β∈R10的函数,返回Nv=6890个顶点和NF=13776个面。然而,形状参数只有10个维度,并且没有足够的能力来构建一个区别性的三维模型来表示不同的人类形状。因此,我们引入垂直位移值,表示为δ∈R6890×3进行3D建模,以适应行人重识别学习:
M(β,θ,σ)=W(T(β,θ,σ),J(β),θ,w ) (1)
其中,W是应用于静态姿态Tβ,θ,σ和骨架关节Jβ的线性混合蒙皮函数。关于W的具体实施,请参考[25]。
将3D 行人重识别形状特征表示为Fshape,在我们的方法中,SMPL的形状参数β和位移σ使用来自Fshape的子网络进行估计。通过这种方式,我们还可以使Fshape与姿势干扰解耦并成为姿势不变。
3.2.2 3D形状特征提取
在本节中,我们将介绍如何使用3D人体重建来帮助提取3D形状重识别特征。如图2中的绿色分支所示,包含所有3D信息的一般特征由基础网络E3D提取。然后将E3D的输出输入3D重建网络。有两组三维模型参数:形状无关参数(即姿势参数θ,相机参数ψ)和形状相关参数(即形状参数β,垂直位移σ)。三维重建模型[14]预测不同组的参数作为整体分布,这将阻碍身份特定特征的提取,因为形状无关信息是ReID的干扰因素。为了解耦不同参数组的信息,采用了独立的估计子网Epose和Eshape。Eshape的输出特征图包含所有3D形状相关信息,这正是我们需要的3D形状ReID特征,表示为Fshape。
除了接受3D重建的监督外,Fshape还受到ReID损耗的监督,包括softmax和triplet损耗。通过这种方式,Fshape既是3D形状相关的,也是身份识别的。
3.2.3 对抗自监督映射
在3D人体重建的文献中,训练模型通常需要高质量的3D地面真实感(例如,3D关键点、3D模型参数、3D点云)。但是,在监控视频中,我们没有任何用于训练的3D注释。根据3D重建文献[14,32],我们设计了一个称为对抗性自监督投影(ASSP)的纯无监督管道。如图2中的蓝色分支所示,ASSP结合了对抗性学习[10]和从3D到2D的自我监督投影,分别在粗略和精细级别上训练3D重建
三维重建的对抗性学习。对抗式学习的目标是生成合理的三维人体模型,避免在粗略的层次上出现异常姿势和形状。具体来说,我们训练一个鉴别器网络D(如图2所示),以区分E3D、Epose和Eshape估计的三维重建参数与超真实的三维人体参数。
参考[14],我们通过Rodrigues公式将每个关节的3维旋转向量转换为3×3旋转矩阵,也就是说,姿势参数θ∈R24×3转化为θ∈R24×3×3。然后,我们将变换后的姿势参数和β作为鉴别器D的输入,其中D的结构与[14]相同。SMPL参数的大规模数据集[26]用作真实人体数据,表示为θreal和βreal。鉴别器D的对抗性损失可表述为:
评估网络E3D、Epose和Eshape的对抗性损失定义为:
从3D到2D的自监督投影。自监督投影的目标是在精细的水平上重建与原始二维图像相匹配的三维网格。这是通过将估计的三维网格投影回原始二维平面来实现的,使投影与从原始输入图像预测的二维观测(例如,关键点、轮廓)一致。通过这种方式,3DSL在端到端环路中根据自生监控信号进行训练,这已得到广泛应用[5、14、19、30、32]。
在这里,我们选择关键点和轮廓作为连接2D和3D空间的中介。我们利用现成的检测器[8]预测关键点位置kϵRp×2来自原始输入图像。对于轮廓M,我们遵循[28]中的处理,并应用GrabCut[35]进行预测。由于从三维空间到二维图像空间的投影需要摄像机的三维位置,因此我们同时估计摄像机的位置参数ψ∈R3。我们采用与[14]相同的摄像机型号和参数。对于从3D到2D的关键点投影,它是通过ψ和相机模型导出的投影矩阵进行的稀疏映射。关键点投影损失定义为:
轮廓投影应在可微分渲染器的帮助下进行,以便进行端到端的训练。我们选择神经渲染器[15]。轮廓投影可以表示为:
轮廓投影损失公式如下:
其中,我们限制σ的值,以避免恢复衣服细节并保持重建的网格平滑。
3.3 纹理不敏感的RGB特征
除了3D形状特征外,还有一些其他有用的纹理不敏感RGB特征,这些特征在服装纹理混乱的情况下也起着重要作用,例如人脸特征和一些其他局部属性(例如眼镜)。
构建一个额外的网络分支(图2中的Ergb)来挖掘上述有价值的信息。为了迫使该分支更加关注与服装纹理无关的区域,我们根据特定任务的特点,通过提供服装信息[34,39,44,46],自适应地修改了三重态损失的采样策略[12]。对于具有衣服变化的数据集,选择具有相同身份但不同衣服的图像作为正对。对于不同身份穿着相似制服的情况,穿着相似服装的图像将被选为负对,我们的两个分支模型也可以用于解决普通人ReID问题[48,51]。在这种情况下,正对和负对被随机抽样来训练Ergb。三维形状学习分支可以作为纹理信息的补充,因为在这种情况下纹理更强大。
四、实验
4.1 数据集
我们在4个服装纹理混淆的行人重识别数据集(即PRCC [44], VC-Clothes [39],LTCC [34], FGPR [46],和2个常见数据集(即Market1501[48]、DukeMTMC ReID[51])上进行了实验,证明了我们的模型在不同情况下的有效性。
服装纹理数据集。有两种类型的服装纹理。第一类数据集用于评估当相同身份会改变服装时的性能,如PRCC [44], VC-Clothes [39],LTCC [34]。PRCC数据集在3个不相交的摄影机视图下捕获,穿着不同服装的身份样本在不同的摄影机视图下收集。PRCC中有33698个图像,训练集中有150个身份,测试集中有71个身份。LTCC包含152个身份的17138个图像。在有77个身份的训练集中,46人穿着不同的衣服,另外31人不换衣服,而测试集由45个换衣服身份和30个穿衣服一致的身份组成。VC-Clothes数据集是由游戏引擎在4个摄像头视图下合成的虚拟基准。VC-Clothes在训练集中有9449张256个身份的图像,在测试集中有9611张256个身份的图像。第二类数据集用于解决不同身份穿着相似衣服的问题,例如FGPR[46]。共有115106张图片和245个身份,分为“蓝色”和“白色”两组。进行10次训练/测试拆分,对于每次拆分,150个身份用于训练,95个身份用于测试。我们使用基于视频的设置进行训练和测试,并对每个序列上获得的特征应用平均池化。
普通行人重识别数据集。我们使用了两个大规模的基准来验证我们的方法在普通人ReID情况下也达到了可比的性能。Market1501[48]包括1501个身份和32688个在6个非重叠摄像头中采集的图像。751个身份的12936个图像构成培训集,其他750个身份构成查询集(3368个图像)和画廊集(19734个图像)。DukeMTMC ReID[51]涵盖了8个不相交的摄影机视图。有702个身份和16522个图像用于训练,而测试集包含702个身份,2228个查询样本和16522个图库样本。
我们采用与[44]相同的PRCC数据集的评估协议和与[46]相同的FGPR数据集的评估协议。值得注意的是,上述数据集的评估是单次的,因此我们只报告累积匹配特征(CMC)曲线。对于其他数据集,我们使用CMC曲线和平均精度(mAP)进行评估。对于PRCC[44]、LTCC[34]、VC衣服[39]和FGPR[46],我们只报告了与原始文件一样涉及衣服纹理混乱情况的性能。
4.2 应用细节
我们利用ResNet50[11]实现Ergb。E3D是res_conv4之前ResNet50[11]的一部分。Epose和Eshape都由ResNet50中的子网络res_conv4和conv5组成。Eglobal和Epart由两个1×1卷积层、一个全局平均池层和两个全连接层组成。我们将图像的大小调整为256×128,以便进行训练和测试。批次大小设置为64,标识数T=16,每个标识的样本数S=4。优化器是Adam[16]。总迭代次数设置为120。E3D和Epose的初始学习率设置为0.0001,而Ergb、Eshape、Eglobal、Epart和D的初始学习率设置为0.0008。40和90个epoch后,学习率将下降10%。权重衰减设置为0.0005。
4.3 和最好的方法的比较
我们将我们的模型与最先进的ReID方法分别在服装纹理混乱和常见的ReID数据集上进行比较,包括:(1)手工制作的特征表示,如LOMO[22]、GOG[27]和度量学习,如XQDA[22]、KISSME[17];(2) 通用ReID数据集(基于图像或基于视频)上的最新深度模型,例如MGN[40]、PCB[38]、AGRL[43];(3) 最先进的服装纹理深度模型融合ReID数据集,如SPT+ASE[44],SE+CESD[34]。我们实验中的基线模型是一个简单的双分支模型,它结合了两个原始的ResNet50网络,分别进行训练,并将特征连接起来进行评估。
从表1、表2和表3中,我们可以观察到,我们的模型在服装纹理混乱的情况下显著超过了其他竞争对手。例如,我们的模型与VC服装上的模型相比,排名1/mAP提高了10.5%/13.9%。对于不同身份相似的FGPR,我们的模型在rank1中的性能比其他方法高出约2.5%。同时,我们的模型在Market-1501和DukeMTMC-ReID上实现了可比性能。
服装纹理数据集的比较。如表1所示,在相同身份可能会改变服装的数据集上,基于部件的模型(如MGN[40])通过考虑本地ReID特征实现了比基本ReID特征[11]更好的性能,但仍然无法捕捉ReID的有效线索。基于2D形状的方法(例如,SE+CESD[34])超过了基于RGB的模型(基于一些服装变化数据集),同时受到2D形状表示模糊性的限制。与上述竞争对手相比,由于有效的三维形状嵌入建模,我们的方法在所有三个换衣数据集上都取得了最高的性能。
表2显示了数据集上的性能比较,不同身份的人穿着相似的衣服。请注意,FGPR是一个基于视频的ReID数据集,我们将其与基于视频的ReID方法进行比较。就排名1而言,我们的方法仍然具有最高的性能。这验证了三维形状嵌入不仅具有识别同一个人的固有不变性,而且具有更好的区分不同身份的鉴别能力。MGS强调全局和局部3D形状,并捕获不同粒度的形状差异。
常用数据集的比较。在常见的行人数据集中,人的衣服纹理是最关键的线索。如表3所示,尽管我们的方法在改进基于RGB的特征方面没有投入太多精力,但我们的方法仍然取得了与最先进的通用ReID模型相当的结果。实验结果表明,三维形状特征嵌入有助于提高基线方法的性能。此外,我们可以观察到,最先进的ReID模型在基准测试中的性能极不稳定。
例如,MGN[40]在Market1501中排名第一的比例为95.7%,而在PRCC中排名第一的比例为47.2%。相比之下,我们的模型在不同情况下自适应捕获最佳特征,并实现更有利的权衡。
4.4 消融实验
在消融研究中,我们进行了实验来证明:(1)3D形状特征以及与纹理不敏感RGB特征相结合的有效性;(2) 学习3D形状特征的不同组件的有效性,包括ASSP和MGS中的损失。关于基线的实施,请参考第4.3节。
与3D形状特征和RGB特征进行比较。如表4所示,本次消融研究训练了两种类型的RGB特征,即随机三重取样的RGB特征和三重取样的RGB特征(见3.3节)。我们观察到,与基线相比,添加3D形状学习在PRCC上在rank@1上实现了4.8%的提升,在Market1501上实现了2.5%mAP的提升。使用特定三重抽样策略学习的纹理不敏感RGB特征优于随机抽样。单个3D形状特征在PRCC上的性能优于RGB特征,但在Market1501上的性能较差,这表明服装纹理信息在普通ReID数据集上更为重要。
3DSL中组件的比较。ASSP中使用的损失决定了三维重建的准确性以及我们是否能够捕获内在的三维形状嵌入。在表5中,我们观察到只有对抗性学习(即Ladv)的版本实现了有限的性能,因为这只能确保粗略的3D模型,而没有足够的辨别能力。自我监督投影(即Lkey+Lsil)的引入可以带来显著的改进,因为它适合精细的身体并捕获可分辨的身体形状。所有损失的组合集成了多级重建,因此性能最佳。此外,MGS在PRCC上rank@1提高了1.2%,在Market1501上mAP提高了0.6%。
4.5 进一步分析
排名列表的可视化。为了进一步了解3D形状特征在纹理混乱情况下的意义,我们在本节中进行了一些可视化工作。如图5所示,当应用基线模型时,最相似的身份是那些具有与查询身份相似的衣服纹理或颜色的人,这通常说明了我们在本文中针对的纹理偏差(例如,偏向第一行中的红色衣服图案)。另一方面,由于我们的模型使用了纹理不敏感的三维形状特征,我们可以捕获每个身份的固有不变性,并克服服装纹理的干扰。
特征分布的可视化。我们可视化特征分布,以便更好地理解三维形状特征的有效性。在图6a中,我们可以观察到,对于每个身份,具有相同服装(圆形和三角形)的样本特征聚集在一起,而具有不同服装(方形)的样本远离其他两种特征。这一现象表明,对于一般的深层模型来说,主要障碍在于较大的类内距离,这从本质上来说是由于对服装纹理的过度关注。在图6b中,类内距离明显减少,说明了3D形状的不变性。由于3DSL的辨别能力,不同身份的特征也保持一定距离。
三维重建可视化。在图7中,我们将三维人体重建可视化,以评估ASSP中粗略水平的对抗性学习和精细水平的自我监督投影的影响。仅使用“Ladv”的结果可以确保基于额外辅助信息的有效人体模型,但不能准确地适应相应的形状和姿势。相反,仅使用“Lkey+Lsil”进行重建可能会产生异常姿势和形状。例如,“ID_2”的关节旋转不合理,“ID_3”的身体大小不正确。结合粗损耗和细损耗约束,所提出的ASSP最适合于特定身份。值得注意的是,重建结果可以反映不同体型的区别。例如,在同一视点下重建,图7中的“ID_1”和“ID_3”在体型上明显不同。
五、总结
在本文中,我们提出学习一种纹理不敏感的三维形状表示方法,并在服装纹理变得混乱的情况下演示该方法的有效性。具体地说,我们提出了一种新的框架,通过端到端的训练方式将行人重识别和三维人体重建相结合来捕获三维形状ReID特征。为了解决三维重建训练中缺乏地面真实感的问题,我们引入了一个称为对抗式自监督投影(ASSP)的无监督模块,通过对抗式学习来确定粗糙的身体流形,并通过自监督投影从三维到二维拟合精细的身体细节。为了提高三维形状特征的识别能力,我们提出了多粒度形状(MGS)学习来捕获部件的三维形状并增加特征的多样性。在服装纹理混淆的ReID基准或普通ReID基准上的实验结果表明了所提出模块的有效性。