论文阅读2 |【AAAI 2022】Pose-guided Feature Disentangling for Occluded Person Re-identification Based on Transformer

(1) 提出了一种新的基于姿势引导的特征分解变换器,通过使用姿势信息对语义成分(如人体或关节部位)进行清晰的分解,并对非遮挡部位进行相应的选择性匹配。 

(2)设计了一个姿势引导的推送丢失来帮助专注于人体部位,减轻遮挡和噪声的干扰,避免了特征学习的失败。

提出了一种基于变换器的姿势引导特征分离(PFD)方法,用于遮挡ReID任务,该方法利用姿势信息来清晰地分离语义成分。PFD包含一个基于变压器的编码器-解码器体系结构、两个匹配模块(PFA和PVM)和一个姿势引导推送损耗。基于ViT的编码器以其强大的功能提取补丁特征。然后,PFA模块通过匹配估计的姿势热图和面片特征,初步指示可见的身体部位。在解码器中,我们定义了一组可学习的语义视图学习有区别的身体部位,然后提出了PVM模块,通过匹配视图集和姿势引导的特征聚合集之间最相似的特征来增强编码器的特征。此外,PVM云在姿态估计的指导下自动分离遮挡特征。最后,提出了一种位置引导推损算法,通过推送嵌入空间中可见部分和被遮挡部分之间的距离,更好地消除遮挡噪声的干扰。 

 

1、视觉上下文Transformer编码器

输入的是图像块,经过线性映射到D维,同时加入位置编码和相机视角信息,通过Transformer编码器,编码器的输出分成两部分:全局特征和部件特征。为了学习更多关于人体部位的判别特征,将部件特征fpart按顺序分成K组,每组连接全局特征送入一个共享Transformer层。

2、姿势引导的特征聚合(PFA)

情况:被遮挡的人物图像身体信息较少,非身体部位信息可能不明确

采用人体姿态估计器从图像中提取关键点信息。

  • 姿势估计

估计器从图像中提取关键点生成热图

  • 姿势引导的特征聚合

通过一个全连接层(使得维度相同)和部件特征相乘,得到姿势引导特征,这样就知道了身体不同部位的信息。但为了找出究竟是哪个部位的信息,又设计了一种匹配分配机制,将零件局部特征和位姿引导特征视为一个集合相似度测量问题。

对于每个 Pi,我们可以在 fgp 中找到最相似的特征,然后将两个特征相加形成 Si。

f kgp 表示 fgp 中与 Pi 最相似的一个

 

3、基于部件视图的Transformer解码器

当去除解码器时,模型的性能大大降低。可以看出,只有encoder得到的特征不够鲁棒,decoder中的可学习语义视图可以隐式地学习到更重要的特征,增强了encoder的特征。

  • query:可学习语义部件视图
  • key:姿态热图和编码器输出fen的组合
  • value:姿态热图和编码器输出fen的组合

 

通过多头注意力机制和两个全连接层,解码器输出匹配视图集

部分语义视图可以学习一些判别特征。然而,目前尚不清楚学习了哪一部分或什么样的信息。因此,为了获得与人体骨骼相关的特征,我们提出了一个姿势-视图匹配模块。

姿势引导的特征聚合集的每个特征都与人体的某个关键点信息相关,所以只要计算部件视图集和特征聚合集的相似度,最后将匹配的部件视图集和特征聚合集相加就可以得到最终的视图特征集。

  • 姿势引导的Push loss

人体部位和非人体部位不应有很强的相似性。如果 Fh 和 Fl (置信度高和低的特征)相似,则 Lp 将很大,可学习的语义部分视图将自适应地调整自己。

 为了指导解码器视图特征表示学习,将平均池化层应用于高置信度关键点视图特征集 Fh 以获得姿态引导的解码器全局特征 fph,然后使用身份损失和三元组损失来引导姿态-引导解码器全局特征 fph 和高置信度特征 fh 学习(图里fph写的是fpd)

posted @   luzhuflower  阅读(75)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
点击右上角即可分享
微信分享提示