Repulsion Loss: Detecting Pedestrians in a Crowd翻译学习笔记

Repulsion Loss: Detecting Pedestrians in a Crowd**

1.Abstract

在人群中检测单个行人仍然是一个具有挑战性的问题，因为在现实世界中，行人经常会聚在一起造成拥挤。在本文中，我们首先通过实验探索最先进的行人检测器如何受到人群遮挡的影响，从而深入了解人群遮挡问题。然后，我们提出了一种专门针对人群场景设计的创新的边框回归损失，称为 repulsion loss。这种损失是由两种动力驱动的：被目标吸引，以及被其他周围物体排斥。排斥力会阻止目标框移至周围的目标，从而导致人群拥挤的定位。经过repulsion loss训练的我们的检测器性能优于最新方法，在遮挡情况方面有了显着改善。

2.Introduction

尽管近年来已经取得了很大的进步，但是遮挡仍然是目标检测中最重大的挑战之一。通常，遮挡可分为两组：类间（inter-class）遮挡和类内（intra-class）遮挡。前一种情况发生在物体被其他类别的东西或物体遮挡时，而后一种情况（也称为人群遮挡）发生在物体被同一类别的物体遮挡时。

在行人检测中，人群遮挡是大多数遮挡情况。原因是在行人检测的应用场景中，例如视频监控和自动驾驶，行人经常聚集在一起并且彼此遮挡。例如，在CityPersons数据集中，验证子集中共有3157个行人标注，其中48.8％与另一位标注的行人重叠，这些行人的IoU大于0.1。此外，所有行人中有26.4％与另一个行人有相当多的重叠IoU高于0.3。频繁的人群拥堵严重损害了行人检测器的性能。

人群拥挤的主要影响在于它显著增加了定位行人的难度。例如，当目标行人T与行人B重叠时，由于这两个行人具有相似的外观特征，因此检测器容易混淆。结果，本应以T为边界的预测框可能会移动到B，从而导致定位不准确。更糟糕的是，由于主要检测结果需要通过非最大抑制（NMS）进行进一步处理，因此原始的从T移出的边界框可能会受到B的预测框的抑制，导致T漏检。也就是说，人群遮挡使检测器对NMS的阈值变得敏感：较高的阈值会带来更多的误报（False Positive，被模型预测为正的负样本），而较低的阈值会导致更多的漏检。这样的不良行为可能会影响大多数实例分割框架，因为它们也需要准确的检测结果。因此，如何在人群场景中稳固地定位每个人是行人检测器最关键的问题之一。

在最新的检测框架中，将边框回归技术用于对象定位，其中训练了回归器以缩小proposals和ground-truth boxes之间的由某种距离度量 (e.g., SmoothL1 or IoU)的差距。但是，现有方法仅要求proposal 接近其指定目标，而无需考虑周围的目标。如Figure 1所示，在标准的边框回归损失中，当预测框移动到周围目标时，没有额外的惩罚。这种观测使我们想知道，如果我们想在人群中检测目标，是否可以考虑其周围物体的位置？

Figure 1.我们提出的repulsion loss的说明。repulsion loss包含两部分：用来缩小proposal与其指定目标之间的距离的吸引项（attraction term），以及用以使目标与周围的非目标对象保持距离的排斥项（repulsion term）。

受磁铁特性（即磁铁吸引和排斥）的启发，我们提出了一种新颖的定位技术，称为 repulsion loss（RepLoss）。任何proposal利用RepLoss，不仅需要接近其指定目标T，但也要避开其他ground-truth目标以及别的指定目标不是T的proposal。换句话说，具有RepLoss的边框回归器是由两个动机驱动的：目标吸引和其他周围环境的排斥对象和建议。例如，如Figure 1所示，由于移至B的红色边界框与周围的非目标对象重叠，因此会受到额外的惩罚。因此，RepLoss可以有效地防止预测的边界框移动到相邻的重叠目标，这使检测器更加适应对人群场景的处理。我们的主要贡献如下：

我们首先通过实验研究人群拥挤对行人检测的影响。具体而言，在CityPersons基准上，我们定量分析了由于人群拥挤引起的误报（false positive^[1]）和漏检（ missed detections），这为了解人群拥挤问题提供了重要的思路。
为了解决人群拥挤的问题，提出了两种repulsion loss，即RepGT Loss和RepBox Loss。 RepGT Loss直接惩罚预测框移动到其他Ground-truth目标，而RepBox Loss要求每个预测框都远离具有不同指定目标的其他预测框，从而使检测结果对NMS的敏感性降低。
根据提出的repulsion losses，一个拥挤行人检测器被端到端（end-to-end）训练，其性能优于CityPerson和美国Caltech基准上的所有最新方法。还应该注意的是，具有repulsion loss的检测器显著提高了遮挡情况的检测精度，突出了repulsion loss的有效性。此外，我们在PASCAL VOC检测数据集上的实验表明，除了行人以外，RepLoss还有利于一般的目标检测。

3. What is the Impact of Crowd Occlusion?

为了提供对人群遮挡问题的见解，在本节中，我们将通过实验研究多少人群遮挡会影响行人检测结果。在深入分析之前，首先我们介绍数据集和使用的基线检测器。

3.1. Preliminaries

Dataset and Evaluation Metrics.

CityPersons是语义分割数据集CityScapes之上的新的行人检测数据集，其中有5 000张图像在德国的多个城市中获取。总共约有35,000个人，另外还有约13,000个被忽略的区域，提供了所有人的边界框注释和可见部分的注释。我们所有涉及CityPerson的实验都是根据能够进行训练和测试的有效训练/验证集进行的。为了进行评估，在[10^-2，10⁰]（MR^-2^[2]）范围内的每个图像的false positive（FPPI^[3]）的取平均值的对数未命中率（log miss rate）被使用（越低越好）。

Detector.

我们的基线检测器（baseline detector）是常用的Faster R-CNN检测器，经过修改可用于行人检测，通常遵循Zhang等人和Mao等人的设置。我们的实现与他们实现之间的区别在于，我们用更快更轻的ResNet-50网络取代了VGG-16主干网。值得注意的是，ResNet很少用于行人检测，因为卷积层的下采样（ down-sampling）率太大，以至于网络无法检测和定位小行人。为了解决这个问题，我们使用了膨胀卷积，最终特征图是输入大小的1/8。基于ResNet的检测器在验证集上达到14.6 MR^-2，明显优于的报告结果（15.4 MR^-2）。

3.2. Analysis on Failure Cases

Missed Detections.

根据基线检测器的结果，我们首先分析由人群遮挡引起的漏检。由于在CityPersons中提供了每个行人可见部分的边框注释，遮挡可以被计算为我们将occ≥0.1的ground-truth行人定义为遮挡情况，将occ≥0.1和IoU≥0.1的ground-truth行人定义为人群遮挡情况。根据定义，从reasonable验证集中的总共1 579个非忽略行人注释中，提取两个子集：reasonable-occ子集，由810个遮挡案例组成（51.3％），和reasonable-crowd子集，由479个人群遮挡案例组成（30.3％）。显然，reasonable-crowd子集也是reasonable-occ子集的子集。

在Figure 2中，我们报告了在reasonable，reasonable-occ和reasonable-crowd子集上漏检和MR^-2的数量。我们观察到，性能从reasonable set的14.6 MR^-2下降到reasonable-occ子集的18.6 MR^-2。在20、100和500个false positives的所有漏检中，遮挡占大约60％，这表明它是影响基线检测器性能的主要因素。在reasonable-occ子集中的漏检中，人群遮挡的比例接近60％，这使其成为解决行人检测中遮挡问题的主要障碍。此外，reasonable-crowd子集（19.1）的未命中率甚至高于reasonable-occ子集（18.6），这表明人群遮挡比类间遮挡更困难。当我们将false positivee的阈值从100降低到500时，由于人群遮挡而导致漏检的比例变大了（从60.7％降至69.2％）。这意味着通过降低阈值很难挽救由于人群遮挡引起的漏检。

Figure 2.在reasonable，reasonable-occ，reasonable-crowd子集上的我们基线检测器遗漏检测数和MR ^-2分数。在reasonable-occ子集中所有错过的检测中，人群遮挡约占60％，这成为解决遮挡问题的主要障碍。

在Figure 3（a）中，红线显示在具有不同检测分数的reasonable-crowd子集中错过了多少ground--truth行人。像在实际应用中一样，仅考虑具有高置信度的预测边界框，曲线顶部的大量漏检数量意味着对于现实应用而言，我们还远未达到饱和状态。

Figure 3.我们的基线和RepGT的错误分析。（a）在不同的检测分数下reasonable-crowd数据集中漏检的数量。（b）由人群遮挡引起的false positives占所有false positives的比例。RepGT Loss 显著地降低了由人群遮挡引起的漏检和false positives。

False Positives.

我们还分析了由人群遮挡引起的误报(false positive)率。我们将所有false positives归为三类：背景，定位和人群错误。当预测的边界框与任何ground-truth行人的IoU <0.1时，就会发生背景误差，而只有一个ground-truth行人的IoU≥0.1时是定位误差。人群错误是是指那些预测框至少和两个ground-truth行人IoU≥0.1。

之后，我们计算人群误差的数量，并计算其在所有false positives中所占的比例。如Figure 3（b）中的红线显示，人群误差在所有误报中所占的比例较大（约20％）。通过Figure 4 中的可视化，我们观察到人群误差（croed error）通常发生在预测框轻微或剧烈地移动到相邻的非目标ground-truth目标，或将几个重叠ground-truth目标的并集框定在一起时。此外，人群错误通常具有较高的置信度，因此导致排名第一的false positives。它表明，为了提高检测器对人群场景的健壮性，在执行边界框回归时需要更多的判别损失（ discriminative loss）。在补充材料中可以找到更多的可视化示例。

Figure 4.人群误差的可视化示例.绿框是正确的预测边界框，而红框是由于人群遮挡导致的误报。由检测器输出的置信度得分也被附上。当预测框向相邻的ground-truth目标（例如，右上角的物体）轻微或剧烈移动，或限制多个重叠的ground-truth目标（例如，右下角的物体）的并集时，通常会发生错误。

Conclusion.

对错误案例的分析证实了我们的观察结果：行人检测器被人群遮挡意外地影响（tainted），因为它构成了大多数漏检的原因，并且由于增加了定位的难度而导致更多的false positive。在section 4环节中，我们提出了repulsion loss，以提高行人探测器对人群场景的鲁棒性。

4. Repulsion Loss

在本节中，我们介绍repulsion loss以解决检测中的人群遮挡问题。受磁铁特性（即磁铁吸引和排斥）的启发，Repulsion Loss由以下三个部分组成：

L = L_Attr + α ∗ L_RepGT + β ∗ L_RepBox, (1)

其中L_Attr是吸引项，需要一个预测框接近其指定目标，而L_RepGT和L_RepBox是排斥项，它们分别需要一个预测框远离其他周围的ground-truth目标和其他具有不同指定目标的预测框。系数α和β充当权衡平衡辅助损失（auxiliary losses）的权重。

为简单起见，假设所有ground-truth目标都来自同一类别，以下仅考虑两类检测。令P =（l_P，t_P，w_P，h_P）和G =（l_G，t_G，w_G，h_G）是 proposal边界框和ground-truth边界框，它们分别代表左上角点的坐标及其宽度和高度。是所有positive proposals的集合（IoU高（例如，IoU≥0.5）且至少有一个ground-truth框的人被视为positive样本，否则为negative样本)，并且是一个图像中所有ground-truth框的集合。

Attraction Term.

为了缩小通过某种距离度量（distance metrics）（例如欧几里得距离，SmoothL1距离或IoU）测量的预测框与ground-truth框之间的差距，在现有的边框回归技术中通常采用了attraction loss。为了进行公平的比较，在本文中，我们对吸引项采用Smooth_L1距离，如我们在Smooth_L1中将平滑参数设置为2。给定proposal P∈P ₊，我们将具有最大IoU的ground-truth框指定为其指定目标：。 B^P是从proposal P中回归的预测框。然后attraction loss可以被计算为：

Repulsion Term (RepGT).

RepGT Loss旨在驱除与其目标无关的邻近ground-truth目标的proposal。给定proposal P∈P ₊，其排斥ground-truth目标定义为除指定目标外，其具有最大IoU区域的ground-truth目标：

受到IoU Loss的启发，计算RepGT Loss是为了惩罚B^P和G^P_Rep之间的重叠。 B^P和G^P_Rep之间的重叠由Intersection

over Ground-truth（IoG）定义：. 当IoG（B，G）∈[0，1]时，我们将RepGT Loss定义为：,而Smooth _ln函数

是一个平滑的ln函数，可以在（0，1）中进行连续微分，而σ∈[0，1）是一个平滑参数，用于调整repulsion loss对异常值的敏感性。Figure 5 显示其具有不同σ的曲线。

Figure 5 .不同平滑参数σ下的Smooth_ln曲线。 σ越小，对异常值的敏感度越低。

从等式4和等式5中可以看到，proposal越倾向于与非目标ground-truth对象重叠，则RepGT Loss会给边界框回归器带来更大的惩罚。这样，RepGT Loss可以有效地阻止预测的边界框移动到不是其目标的相邻对象。

Repulsion Term (RepBox).

在大多数检测框架中，NMS是必需的后期处理步骤，用于合并框取同一目标的主要预测边界框。但是，NMS会对检测结果产生重大影响，尤其是对于人群案例。为了使检测器对NMS的敏感性降低，我们进一步提出了RepBox Loss，其目的是排斥所有具有不同指定目标的其他proposal。

作者将proposal集P₊划分为互不相交的子集基于每个proposal的目标：P₊ = P₁∩P₂∩... ∩P _{| G |}。然后，对于从两个不同子集和随机采样的两个posiposal，其中i，j = 1,2,..., 并且i != j，作者期望预测框B^Pi和B^Pj的重叠将尽可能小。因此，RepBox的损失计算如下：,

其中是恒等函数,在被零除的情况下是一个小常数。从Eqn 6可以看到，为了使RepBox Loss最小，两个具有不同指定目标的预测框之间的IoU区域需要很小。这意味着，RepBox Loss能够降低具有不同回归目标的预测边界框在NMS之后合并为一个的概率，这使检测器对人群场景更加鲁棒。

4.1. Discussion

Distance Metric.

值得注意的是，我们选择IoG或IoU而不是Smooth_L1度量来测量排斥项中两个边界框之间的距离。原因是IoG和IoU的值限制在[0，1]范围内，而Smooth_L1度量是无限制的，即如果我们在排斥项中使用Smooth_L1度量，例如在RepGT Loss中，它将需要预测框尽可能远离其排斥ground-truth目标。相反，IoG标准仅要求预测框最小化与其排斥ground-truth目标的重叠，这更符合我们的目的。

另外，在RepGT Loss中采用IoG而不是在IoU，因为在基于IoU的损失中，边框回归器可以通过简单地扩大边界框尺寸以增加分母面积（B^P ∪ G^P_Rep）来学习使损失最小化。因此，我们选择分母为常数的IoG对于特定二点ground-truth目标来直接最小化重叠区域（BP∩GP Rep）。

Smooth Parameter σ.

与直接使用-ln（IoU）作为损失函数的方法相比，我们在RepGT Loss和RepBox Loss中都引入了平滑的ln函数Smooth_In和平滑参数σ。如Figure 5所示，我们可以通过平滑参数σ来调整repulsion loss对异常值（一对重叠大的框）的敏感性。由于预测框比ground-truth框要密集得多，因此一对两个预测框比一对一个预测框和一个ground-truth框具有更大的重叠。这意味着RepBox中的异常值将比RepGT中的更多。因此，从直觉上讲，RepBox Loss比RepGT Loss对异常值（具有较小σ）的敏感度要低。第5.2节提供了有关平滑参数σ以及 auxiliary loss weights权重α和β的更详细的研究。

5. Experiments

6. Extensions: General Object Detection

7. Conclusion

在本文中，我们精心设计了用于行人检测的排斥力（RepLoss），从而提高了检测性能，尤其是在人群场景中。 repulsion loss的主要诱因是，仅凭目标吸引损失(attraction-by-target loss)可能不足以训练最佳检测器，而逐个排斥力(repulsion-by-surrounding )可能非常有益。

为了实现排斥能量，我们引入了两种类型的repulsion loss。我们在两个受欢迎的数据集：Caltech和CityPersons上取得了最佳的报告性能。值得注意的是，我们在CityPersons上不使用像素注释的结果优于以前使用像素注释的最佳结果约2％。详细的实验比较证明了所提出的RepLoss的价值，它在遮挡场景中大大提高了检测精度。对一般的目标检测（PASCAL VOC）的结果进一步显示了其有用性。我们期望将建议的损失广泛应用于许多其他目标检测任务中。

二分类问题：即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预测成负类，称之为真负类（True negative）,正类被预测成负类则为假负类（false negative）。 TP：正确肯定的数目； FN：漏报，没有正确找到的匹配的数目； FP：误报，给出的匹配是不正确的； TN：正确拒绝的非匹配对数； ↩︎
MR^-2:我们用log-average miss rate来总结探测器的性能。计算方法是在9个FPPI值下（在值域[0.01，1.0]内以对数空间均匀间隔）的平均miss rate值。从概念上讲，log-average miss rate与目标检测的AP相似，因为它们都是用一个参考值表示整个曲线。 ↩︎
MR-FPPI:假设N幅图片中，误检窗口为k,那么FPPI（false positive per image）为k/N，miss rate（1-R）取该FPPI值对应的最小miss rate。通常每幅图像的可接受误报率上限与行人密度无关，因而这比P-R曲线更可取。（各个fppi和miss rate的得到方式与AP中得到P、R值的方式一样，也是得到所有检测框的置信度，由高到低排列，依次判断top-n为行人）。 ↩︎

posted @ 2020-10-19 14:12 kitamu 阅读(748) 评论(0) 收藏举报

刷新页面返回顶部

kitamu