Detection in Crowded Scenes: One Proposal, Multiple Predictions

Detection in Crowded Scenes: One Proposal, Multiple Predictions

2020-04-26 13:11:43

Paperhttps://arxiv.org/abs/2003.09163 

Code: https://github.com/megvii-model/CrowdDetection

Bloghttps://mp.weixin.qq.com/s/gJuXl6Oh_N_fJgQ9jT268w 

 

1. Background and Motivation:

本文拟解决严重遮挡的情况,因为常规的检测器会失效:

1). 高度重合的样本可能会有相似的特征。所以,检测器很难区分开这些 proposal;

2). 由于高度重合,这些proposal 会被 NMS 误杀。

 

前人也在尝试解决这个问题,例如:sophisticated NMS,new loss functions, re-scoring, part-based detectors。但是这些方法要么太复杂,要么不能很好地处理高度重叠的场景,或者降低了不那么重叠的情况。在本文中,我们拟提出一种新的学习机制来处理这种挑战:对于每一个 proposal box,不是预测单个 instance,作者建议预测一组 instance,如图 2 所示。有了这种机制,近邻的 proposals 的预测可以被期待为 infer the same set of instances, 而不是区分 individuals,而前者是更加容易学习的 (with this scheme, the predictions of nearby proposals are expected to infer the same set of instances, rather than distinguishing individuals)。最终,作者提出 EMD LOSS 来监督这个 instance set prediction 的学习。其次,一种新的 post-processing 方法称为,Set NMS 被引入来抑制不同 proposals 的重复情况。最后,一种可选择的 refinement module 被设计用于处理潜在的 false positives。

2. The Proposed Method: Multi-Instance Prediction:

本文主要是受到如下观察的启发:如图 2 所示,当有多个物体严重遮挡时,如果 one proposal 对应了任何一个物体,那么很有可能和其他物体重合了。所以,对于这样的 proposal box,那么我们为啥要预测单个 object,而不是都预测呢?

正式的来说,对于每一个 proposal box bi,这种新的机制想要预测一组相关的 instances  G(bi) 而不是一个物体:

 

其中,g 是所有 GT Boxes 的集合。

 

Instance set prediction

对于么一个 box bi,传统方法都会用 detection function 来预测一个 pair (ci, li) 来表示链接的示例,其中,ci 是分类标签,li 是相对位置。

作者这里进行了拓展,引入了 K 个检测函数,来产生一组预测:

其中,K 是给定的常量。

 

EMD loss

作者想设计一个损失函数 L(bi) 来最小化预测 P(bi) 和 真值示例 G(bi) 之间的差异,可以归类为 set distance measurement。作者设计如下的 EMD LOSS 来最小化两个集合之间的 Earth Mover's Distance:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==

posted @ 2020-04-26 13:13  AHU-WangXiao  阅读(1451)  评论(0编辑  收藏  举报