CSP：Object as Point同会议论文，相似思想用于人脸和行人检测 | CVPR 2019

CSP将目标定义为中心点和尺寸，通过网络直接预测目标的中心和寸尺，相对于传统的RCNN类型检测算法轻量化了不少。整体思想与Object as Points撞车了，真是英雄所见略同

来源：晓飞的算法工程笔记公众号

论文: Center and Scale Prediction: A Box-free Approachfor Pedestrian and Face Detection(High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection)

论文地址：https://arxiv.org/abs/1904.02948
论文代码：https://github.com/liuwei16/CSP

Introduction

目前一些研究基于深度卷积网络进行边缘检测，获得了不错的效果。论文认为既然卷积网络能够预测边缘，那网络必然也能预测物体的中心点及其尺寸。于是论文将检测的目标定义为中心点及尺寸，提出了CSP(Center and Scale Prediction)

CSP的网络结构大致如图1所示，在主干网络上分别预测目标中心点的位置及其对应的尺寸。这篇文章的整体思想与CenterNet(zhou. etc)基本一致，但不是抄袭，因为是同一个会议上的论文，CenterNet主要研究常规的目标检测，而这篇主要研究人脸检测和行人检测。但CSP仍然需要进行NMS的后处理，较CenterNet更逊色一些，但不妨碍我们进行简单地了解，包括学习论文的训练方法以及参数。

Overall architecture

CSP检测算法的结构如图2所示，主干网络由ImageNet的预训练网络截断所得，主要分为特征提取部分以及预测部分。

Feature Extraction

以ResNet-50为例，卷积层分为五个阶段，下采样比例分别为2、4、8、16和32，论文进行了以下修改与设置：

将第五阶段的卷积更换为空洞卷积，使其保持下采样比例为16。
为了融合浅层和高层特征，在Concatenate前将多阶段输出进行反卷积扩大至同一分辨率。
由于不同阶段特征图的分辨率不同，使用L2-normalization将各阶段特征图的范数缩放为10。
论文通过实验最终只选用了第3、第4和第5阶段的特征进行检测。
给定大小为\(H\times W\)的输入图片，最终的concatenated特征图大小为\(H/r \times W/r\)，r为4时性能最好。

Detection Head

在获得concatenated特征图\(\Phi_{det}\)后，使用简单的detection head将特征转化为检测结果。首先采用\(3\times 3\)卷积层输出256维特征，然后分别使用\(1\times 1\)卷积层来产生偏移值预测，尺寸图和中心点热图。

Training

Ground Truth

给定GT标注，能够自动地生成对应的GT中心点位置和尺寸。将GT标注对应特征图上的位置设定为中心点正样本，其它位置均为负样本。尺寸可定义为目标的高和宽，对于使用line annotation标注的行人数据集，其长宽比固定为0.41，仅需预测高度即可。对于GT尺寸，正样本位置\(k\)的值定义为\(log(h_k)\)，在其半径范围2以内的位置也设为同样的值，其余设置为零。而若加入偏移值预测分支，该分支的GT定义为\((\frac{x_k}{r}-\lfloor \frac{x_k}{r}\rfloor, \frac{y_k}{r}-\lfloor \frac{y_k}{r} \rfloor )\)。