[重读经典论文] RetinaNet——Focal Loss for Dense Object Detection

1. 前言

这篇论文也是何凯明的团队在2017年的论文《Focal Loss for Dense Object Detection》中提出的，网络架构魔改了FPN，因此这篇论文的重点是提出了新的分类Loss——Focal Loss，用一个合适的函数，去度量难分类和易分类样本对总的损失函数的贡献。解决了传统交叉熵损失函数因为类别不平衡导致性能下降的问题。RetinaNet是历史上one stage网络性能第一次超过two stage网络。

但是它也存在一些缺点，首先Focal Loss引入了另外两个超参数，针对这两个参数需要谨慎调整，不然反而导致最后的训练结果更不好；然后是容易受噪音影响，由于模型会更偏向于学习难分样本，一旦这些样本标错，将会成指数倍放大误差，导致模型难以拟合。

2. 网络架构

2.1. 主体结构

如上图所示，跟FPN区别的点主要是没有用到C2进行特征融合，然后P6、7是在P5的基础上进行卷积操作得到的。Anchor方面，每个特征层选了3个Scale和3个Ratios，也就是9个Anchor，如图右下所示。

2.2. 预测头

跟Faster-Rcnn有点类似，不同的是每个最后的特征层的预测头的权值是共享的，如图右上所示，上面的分支预测分类，输出W*H*KA的结果，K代表检测目标类别个数（不包括背景），下面的分支预测坐标，输出W*H*4A，4代表预测的（xywh），A表示Anchor个数。

2.3. Loss

正负样本匹配：

IoU >=0.5，正样本。
IoU < 0.4，负样本。
IoU ∈[0.4,0.5)，舍弃。

其中IOU指ground truth与anchor box之间的IoU。

总体Loss：

分类误差采用Focal Loss，算正负样本的损失，回归损失只计算所有正样本的损失。

3. Focal Loss

3.1. one stage检测算法中的样本不平衡问题

如上图所示，是在图片上画完anchor后，通过正负样本匹配得到的结果，其中黄色的是正样本，红色的是负样本，可以看到负样本远比正样本要多。实际上，在现实中比例更夸张，一般一张图的正样本个数只有十几到几十个，但是负样本则大概在10^4到10^5，这些负样本基本都是简单易分的，对训练网络起不到什么作用，但是会淹没少量但是有助于训练的样本。