行人重检测综述
Deep learning for person re-identification: A survey and outlook
作者自己在知乎上的讲解:https://zhuanlan.zhihu.com/p/342249413
将行人重识别分为closed-world(实验室中使用的数据集)和open-world(实际项目中的数据集)
- 首先从deep feature representation learning、deep metric learning和ranking optimization三个不同的角度分析了closed-world。
- 我们从五个不同方面总结了开放世界的 open-world
其他:
- 通过分析现有方法的优势,我们设计了一个强大的 AGW(Attention Generalized mean pooling with Weighted triplet loss)基线
- 我们为 person Re-ID 引入了一个新的评估指标mINP(mean Inverse Negative Penalty),表示找到所有正确匹配项的成本.
- 最后,讨论了一些重要但未充分研究的开放性问题。
Re-ID:从图片中找到感兴趣的人,查询人可以用图像、视频序列,甚至文本描述来表示
影响Re-ID的因素:不同的视角、不同的低图像分辨率、光照变化 、不受约束的姿势、遮挡、、复杂的相机环境、背景杂波等
Re-ID需要五个主要步骤:
- 原始数据采集:原始数据的背景含有大量的干扰信息。
- 边界框生成(Bounding Box Generation):通过人员检测或跟踪算法裁剪出人物的图像。
- 模型训练:特征表示学习、距离度量学习或它们俩的组合上。
- 数据标注:针对当前场景的数据进行标注
- 行人检索(Pedestrian Retrieval.):从gallery set找到感兴趣的人,并按可能性进行排序。
closed-world(实验室中使用的数据集)和open-world(实际项目中的数据集)的区别:
closed-world | open-world | |
---|---|---|
原始数据采集 | 可见相机拍摄的图像/视频 | 红外图像 、草图 [61]、深度图像 ,甚至文本描述 |
边界框生成 | 通常基于生成的bounding box进行训练和测试 | 需要从原始图像或视频中进行端到端的人物搜索 |
数据量 | 足够 | 少量 |
标注 | 一般都是标注正确的 | 很可能有标注错误的样本 |
行人检索 | 从gallery set中查找图像 | 查询人可能不会出现在图库集 |
closed-world
Feature Representation Learning
closed-world的行人重识别中的特征学习策略。主要有四类(图2)
- Global Feature,它为每个人物图像提取一个全局特征表示向量
1.为了捕捉全局特征学习中的细粒度线索而做的工作
2.使用注意力机制 - Local Feature,聚合人像各个部分的特征,得到最终的一个特征
1.自动检测人的各个部位,将全局特征和局部特征结合起来
2.水平将人像进行分割,然后对各个分割的部分进行特征提取,然后将这些特征综合起来 - Auxiliary Feature:利用person的属性、GAN 生成的图像等额外的信息生成额外的特征
- Video Feature:它使用多个图像帧和时间信息学习到的特征(利用循环神经网络等)
设计架构:现在的很多Re-ID工作使用的是图像分类设计的网络架构,如ResNet50 backbone。设计架构关注准确率、效率。最近auto-machine learning引发关注。
三种常用的损失函数(图3):
- Identity Loss: 将Re-ID 的训练过程视为一个图像分类问题,使用交叉熵计算分类的损失
- Verification Loss:计算经过特征提取以后,两个特征向量之间的距离
- Triplet Loss:anchor sample与正样本和负样本进行对比。四元组包含一个锚样本、一个正样本和两个挖掘的负样本。
triplet loss 和 identity loss 的组合是Re-ID中最流行的解决方案之一
还有一种损失函数——Online Instance Matching (OIM) loss,它是基于memory bank scheme。memory bank scheme用于unsupervised domain adaptive Re-ID
深度学习时代之前,度量学习已得到广泛研究。度量学习的作用已被损失函数设计所取代,以指导特征表示学习。
训练策略:
- 随机选择一定数量的身份,然后从每个选择的身份中抽取几张图像。
Ranking Optimization(优化排名):
同一个人的图片,根据识别的难易,从最简单开始往下排序。
Rank Fusion:通过不同方法获得的多个排名列表来提高检索性能
常用的数据集:VIPeR [31], iLIDS [167], GRID [168], PRID2011 [126], CUHK01-03 [43], Market-1501 [5], DukeMTMC [42], Airport [169] and MSMT17 [44]) and 7 video datasets (PRID-2011 [126], iLIDS-VID [7], MARS [8], Duke-Video [144], Duke-Tracklet [170], LPW [171] and LS-VID [136]
OPEN-WORLD
本小节总结了四种主要的异构Re-ID,包括深度和RGB图像之间的Re-ID(章节3.1.1)、文本到图像的Re-ID(章节3.1.2)、可见光到红外的Re-ID(章节3.1.3)和交叉分辨率的Re-ID(章节3.1.4)。
OPEN-WORLD要求在单框架中实现the person detection和re-identification,所以有些论文将框架分为两个部分,有些则采用端到端的单一卷积网络实现。