行人重检测综述

Deep learning for person re-identification: A survey and outlook
作者自己在知乎上的讲解:https://zhuanlan.zhihu.com/p/342249413

将行人重识别分为closed-world(实验室中使用的数据集)和open-world(实际项目中的数据集)

  • 首先从deep feature representation learning、deep metric learning和ranking optimization三个不同的角度分析了closed-world。
  • 我们从五个不同方面总结了开放世界的 open-world

其他:

  • 通过分析现有方法的优势,我们设计了一个强大的 AGW(Attention Generalized mean pooling with Weighted triplet loss)基线
  • 我们为 person Re-ID 引入了一个新的评估指标mINP(mean Inverse Negative Penalty),表示找到所有正确匹配项的成本.
  • 最后,讨论了一些重要但未充分研究的开放性问题。

Re-ID:从图片中找到感兴趣的人,查询人可以用图像、视频序列,甚至文本描述来表示
影响Re-ID的因素:不同的视角、不同的低图像分辨率、光照变化 、不受约束的姿势、遮挡、、复杂的相机环境、背景杂波等

Re-ID需要五个主要步骤:

  • 原始数据采集:原始数据的背景含有大量的干扰信息。
  • 边界框生成(Bounding Box Generation):通过人员检测或跟踪算法裁剪出人物的图像。
  • 模型训练:特征表示学习、距离度量学习或它们俩的组合上。
  • 数据标注:针对当前场景的数据进行标注
  • 行人检索(Pedestrian Retrieval.):从gallery set找到感兴趣的人,并按可能性进行排序。

closed-world(实验室中使用的数据集)和open-world(实际项目中的数据集)的区别:

closed-world open-world
原始数据采集 可见相机拍摄的图像/视频 红外图像 、草图 [61]、深度图像 ,甚至文本描述
边界框生成 通常基于生成的bounding box进行训练和测试 需要从原始图像或视频中进行端到端的人物搜索
数据量 足够 少量
标注 一般都是标注正确的 很可能有标注错误的样本
行人检索 从gallery set中查找图像 查询人可能不会出现在图库集

closed-world

Feature Representation Learning

closed-world的行人重识别中的特征学习策略。主要有四类(图2)

  • Global Feature,它为每个人物图像提取一个全局特征表示向量
    1.为了捕捉全局特征学习中的细粒度线索而做的工作
    2.使用注意力机制
  • Local Feature,聚合人像各个部分的特征,得到最终的一个特征
    1.自动检测人的各个部位,将全局特征和局部特征结合起来
    2.水平将人像进行分割,然后对各个分割的部分进行特征提取,然后将这些特征综合起来
  • Auxiliary Feature:利用person的属性、GAN 生成的图像等额外的信息生成额外的特征
  • Video Feature:它使用多个图像帧和时间信息学习到的特征(利用循环神经网络等)

设计架构:现在的很多Re-ID工作使用的是图像分类设计的网络架构,如ResNet50 backbone。设计架构关注准确率、效率。最近auto-machine learning引发关注。

三种常用的损失函数(图3):

  • Identity Loss: 将Re-ID 的训练过程视为一个图像分类问题,使用交叉熵计算分类的损失
  • Verification Loss:计算经过特征提取以后,两个特征向量之间的距离
  • Triplet Loss:anchor sample与正样本和负样本进行对比。四元组包含一个锚样本、一个正样本和两个挖掘的负样本。

triplet loss 和 identity loss 的组合是Re-ID中最流行的解决方案之一

还有一种损失函数——Online Instance Matching (OIM) loss,它是基于memory bank scheme。memory bank scheme用于unsupervised domain adaptive Re-ID

深度学习时代之前,度量学习已得到广泛研究。度量学习的作用已被损失函数设计所取代,以指导特征表示学习。

训练策略:

  • 随机选择一定数量的身份,然后从每个选择的身份中抽取几张图像。

Ranking Optimization(优化排名):

同一个人的图片,根据识别的难易,从最简单开始往下排序。

Rank Fusion:通过不同方法获得的多个排名列表来提高检索性能

常用的数据集:VIPeR [31], iLIDS [167], GRID [168], PRID2011 [126], CUHK01-03 [43], Market-1501 [5], DukeMTMC [42], Airport [169] and MSMT17 [44]) and 7 video datasets (PRID-2011 [126], iLIDS-VID [7], MARS [8], Duke-Video [144], Duke-Tracklet [170], LPW [171] and LS-VID [136]

OPEN-WORLD

本小节总结了四种主要的异构Re-ID,包括深度和RGB图像之间的Re-ID(章节3.1.1)、文本到图像的Re-ID(章节3.1.2)、可见光到红外的Re-ID(章节3.1.3)和交叉分辨率的Re-ID(章节3.1.4)。

OPEN-WORLD要求在单框架中实现the person detection和re-identification,所以有些论文将框架分为两个部分,有些则采用端到端的单一卷积网络实现。

posted @ 2022-12-05 22:04  好人~  阅读(222)  评论(0编辑  收藏  举报