行人重检测综述

Deep learning for person re-identification: A survey and outlook
作者自己在知乎上的讲解：https://zhuanlan.zhihu.com/p/342249413

将行人重识别分为closed-world（实验室中使用的数据集）和open-world（实际项目中的数据集）

首先从deep feature representation learning、deep metric learning和ranking optimization三个不同的角度分析了closed-world。
我们从五个不同方面总结了开放世界的 open-world

其他：

通过分析现有方法的优势，我们设计了一个强大的 AGW（Attention Generalized mean pooling with Weighted triplet loss）基线
我们为 person Re-ID 引入了一个新的评估指标mINP（mean Inverse Negative Penalty），表示找到所有正确匹配项的成本.
最后，讨论了一些重要但未充分研究的开放性问题。

Re-ID：从图片中找到感兴趣的人，查询人可以用图像、视频序列，甚至文本描述来表示
影响Re-ID的因素：不同的视角、不同的低图像分辨率、光照变化、不受约束的姿势、遮挡、、复杂的相机环境、背景杂波等

Re-ID需要五个主要步骤：

原始数据采集：原始数据的背景含有大量的干扰信息。
边界框生成（Bounding Box Generation）：通过人员检测或跟踪算法裁剪出人物的图像。
模型训练：特征表示学习、距离度量学习或它们俩的组合上。
数据标注：针对当前场景的数据进行标注
行人检索（Pedestrian Retrieval.）：从gallery set找到感兴趣的人，并按可能性进行排序。

closed-world（实验室中使用的数据集）和open-world（实际项目中的数据集）的区别：

	closed-world	open-world
原始数据采集	可见相机拍摄的图像/视频	红外图像、草图 [61]、深度图像，甚至文本描述
边界框生成	通常基于生成的bounding box进行训练和测试	需要从原始图像或视频中进行端到端的人物搜索
数据量	足够	少量
标注	一般都是标注正确的	很可能有标注错误的样本
行人检索	从gallery set中查找图像	查询人可能不会出现在图库集

closed-world

Feature Representation Learning

closed-world的行人重识别中的特征学习策略。主要有四类（图2）

Global Feature，它为每个人物图像提取一个全局特征表示向量
1.为了捕捉全局特征学习中的细粒度线索而做的工作
2.使用注意力机制
Local Feature，聚合人像各个部分的特征，得到最终的一个特征
1.自动检测人的各个部位，将全局特征和局部特征结合起来
2.水平将人像进行分割，然后对各个分割的部分进行特征提取，然后将这些特征综合起来
Auxiliary Feature：利用person的属性、GAN 生成的图像等额外的信息生成额外的特征
Video Feature：它使用多个图像帧和时间信息学习到的特征（利用循环神经网络等）

设计架构：现在的很多Re-ID工作使用的是图像分类设计的网络架构，如ResNet50 backbone。设计架构关注准确率、效率。最近auto-machine learning引发关注。

三种常用的损失函数（图3）：

Identity Loss：将Re-ID 的训练过程视为一个图像分类问题，使用交叉熵计算分类的损失
Verification Loss：计算经过特征提取以后，两个特征向量之间的距离
Triplet Loss：anchor sample与正样本和负样本进行对比。四元组包含一个锚样本、一个正样本和两个挖掘的负样本。

triplet loss 和 identity loss 的组合是Re-ID中最流行的解决方案之一

还有一种损失函数——Online Instance Matching (OIM) loss，它是基于memory bank scheme。memory bank scheme用于unsupervised domain adaptive Re-ID

深度学习时代之前，度量学习已得到广泛研究。度量学习的作用已被损失函数设计所取代，以指导特征表示学习。

训练策略：

随机选择一定数量的身份，然后从每个选择的身份中抽取几张图像。

Ranking Optimization（优化排名）：

同一个人的图片，根据识别的难易，从最简单开始往下排序。

Rank Fusion：通过不同方法获得的多个排名列表来提高检索性能

常用的数据集：VIPeR [31], iLIDS [167], GRID [168], PRID2011 [126], CUHK01-03 [43], Market-1501 [5], DukeMTMC [42], Airport [169] and MSMT17 [44]) and 7 video datasets (PRID-2011 [126], iLIDS-VID [7], MARS [8], Duke-Video [144], Duke-Tracklet [170], LPW [171] and LS-VID [136]

OPEN-WORLD

本小节总结了四种主要的异构Re-ID，包括深度和RGB图像之间的Re-ID(章节3.1.1)、文本到图像的Re-ID(章节3.1.2)、可见光到红外的Re-ID(章节3.1.3)和交叉分辨率的Re-ID(章节3.1.4)。

OPEN-WORLD要求在单框架中实现the person detection和re-identification，所以有些论文将框架分为两个部分，有些则采用端到端的单一卷积网络实现。

posted @ 2022-12-05 22:04 好人~ 阅读(334) 评论(0) 收藏举报

刷新页面返回顶部

codingbigdog

行人重检测综述

closed-world

Feature Representation Learning

OPEN-WORLD

公告