【论文笔记】S3FD：Single Shot Scale-invariant Face Detection

&论文概述

题目：Single Shot Scale-invariant Face Detection

作者及单位：Shifeng Zhang, Xiangyu Zhu, Zhen Lei, Hailin Shi, Xiaobo Wang, Stan Z. Li. CBSR & NLPR, Institute of Automation, Chinese Academy of Sciences, Beijing, China University of Chinese Academy of Sciences, Beijing, China

获取地址：https://arxiv.org/abs/1708.05237

&总结与个人观点

S3FD是针对人脸检测提出的，通过解决基于anchor设计的检测方法的常见问题：当目标变小，检测器的性能急剧降低，设计了一个新颖的人脸检测器。提出了1)在更多层上提取anchor以及选取一系列合理的anchor尺度以解决人脸的不同尺度问题的尺度平衡网络；2)提高小人脸的召回率的尺度补偿anchor匹配策略；3)降低小人脸的false positive的背景标签的最大输出方法。

我认为这篇论文在人脸检测领域种很有创新，而且提出的解决方案都不难理解，值得一看。

&贡献

1) 提出scale-equitable的人脸监测框架来处理不同尺度的人脸。其中包括设计了基于effective receptive field以及equal-proportion interval principle的anchor尺度以及将anchor应用于更多的层上；

2) 通过scale compensation anchor matching strategy来提高小人脸的recall；

3) 通过max-out background label以减少小人脸的false positive的比例。

&拟解决的问题

问题：基于anchor设计的检测器，当目标变得更小，性能急剧变糟

分析：

1) 目前基于anchor的检测框架往往会miss小的及中等大小的的人脸。在最低的提取anchor的层中步长太大，以至于小人脸在检测层的特征很少,如下图中(a)所示；且anchor尺度误匹配了感受野（感受野或者anchor太大）以至于无法适应小人脸，如下图中(b)所示。

2) 在基于anchor的检测框架中，anchor的尺度是离散的，而人脸的尺度却是连续的，以至于尺度游离在anchor尺度之外的人脸无法匹配到足够的anchor，如上图(c)所示，在anchor尺度上的人脸匹配到的anchor的数量明显高于平均水平。

3) 为了检测到小人脸，需要在图片中使用大量的较小的anchor，导致背景中的negative anchor的数量急剧增加，造成更多的false positive，如上图(d)所示，在图片中，使用小尺度的anchor得到的anchor数量比大尺度anchor的数量多得多。

&重要的方法及应用

1、Effective Receptive Field

CNN中的一个单元有两种类型的感受野：1) Theoretical Receptive Field，即输入区域中能够影响到这个单元的理论区域；但并非理论区域上的每个像素对最终的输出有着同等的贡献，如下图(左)所示，整个图片是理论上的感受野，其中白色的是对最终输出产生影响的像素位置。可以看出中心像素的影响明显比外围大了很多，说明只有这个区域的一部分有着有效的影响，即2)Effective/Valid Receptive Field。

可以参考：

论文名称：Understanding the Effective Receptive Field in Deep Convolutiona lNeura lNetworks

论文地址：https://arxiv.org/abs/1701.04128

因此，anchor可以变得更小来匹配有效的感受野。当然，此时将anchor变得更小，带来的是anchor数量的暴增，同样也会有更多的false positive。之后也会提到解决这个问题的方法。可以看下图所示，anchor的尺度选的更小，同时也能应用在更多的层上。

对上表数据的解释：其中RF表示整体的理论感受野，Anchor是当前感受野下选择的anchor的尺度，通过上图有效感受野的示意图可以看出，第二幅图片整体是48×48大小（黑色圆点围成的范围），其中有效感受野为蓝色圆点围成的区域，内部红色线条表示设置的anchor的尺度，可以看出，使用更小的anchor尺度更符合有效感受野的区域变化。

2、Equal-proportion interval principle

根据作者的介绍，这里使用的等比例原则就是anchor的尺度与步长的比值是一个定值，此论文中取4。该方法的目的是为了确保不同尺度的anchor在图像中也能有相同的密度。如下图所示，n为anchor的尺度，n/4是当前尺度下anchor的间隔，同时也是提取这个尺度的anchor所在的层的步长。

3、Scale compensation anchor matching strategy

当前的anchor匹配策略都是先计算所有的人脸与anchor之间的IoU，然后从中选择大于threshold的anchor。针对分析2)中提到的问题，本文使用了尺度补偿的anchor匹配策略：首先仍然选用当前的anchor匹配策略，但将阈值调低，从0.5降到0.3，以增加匹配的anchor的平均数量；接着，对那些未匹配到足够anchor的人脸，再次选取与这些人脸匹配IoU大于0.1的anchor，选取其中的top-N个，N为匹配到的anchor的平均数量。

结果如下图所示，之前游离在anchor尺度之外的人脸尺度，此时匹配到的anchor的数量提升不少。

4、Maxout Background Label

根据数据结果显示，超过99.8%的预设的anchor属于negative anchor，这就造成了二分类(negative, positive)过程中极度的不平衡，而这种不平衡的根源是对小人脸的检测。因为在小人脸检测中需要更小的anchor。

下图为每个anchor提取层提取出的anchor的数量及其占比，可见在最底层提取的anchor的数量超过总体anchor的75%，因此小anchor中negative anchor的可能性更高。

论文中在conv3_3层后使用maxout background label：对每个anchor，预测N_m个背景标签的分数，然后选择最高的作为最终分数。可以预见，使用这种方法，可以刷掉很多的negative anchor。

下图为论文实验中的消融实验的结果：F是第1、2种方法，S是第3种方法，M是第4种方法。从表格中可以看出，每增加一种方法，效果都在增强。

&尚待学习的问题

关于等比例间隔原则，还存在一些问题，在卷积层上的所有提取anchor的层中，只要anchor的尺度在当前层上是相同的，那么就相当于是等比例间隔原则。但是怎么实现的不同尺度的anchor在图像中也能有着相同的密度，这个密度是什么意思？显然不是指数量，毕竟大的anchor的数量肯定少。那么有着相同的密度似乎不太合理。

对于等比例原则概念，先前的理解有点问题，所谓等比例原则应当是在每一特征层上选择的anchor尺度与使用的每个anchor相隔的stride的比例是相同的。但是从整体的处理来看，因为anchor映射到对应层级上后，在每一层上的间隔都是相同的，也即等比例原则。从表中的数据可以看出，每个层级对应的anchor都是4×4的大小，每次滑动n/4的位移，对应到每一层上就是1个像素点，因此相当于对每个特征层上的每一个像素点都划一个anchor。

&思考与启发

本文最主要的创新点在于考虑每个目标能够匹配的anchor的数量，从而一定程度上增加召回率，以增强检测目标的精度，同时使用最大化背景概率来降低整体的虚警。其实本文中的创新点处理起来并不难，主要是没有在这种个方向上进行思考，对问题的根源没有了解的很清楚，这篇论文给人的感觉就是原来这么简单就可以提升性能，要学会从另一个角度看问题，从而找到解决方案。

posted @ 2019-09-17 23:11 JenkinFan Views(736) Comments(0) Edit 收藏举报

刷新页面返回顶部

JenkinFan