阅读论文（7）Faster R-CNN：Towards Real-Time Object Detection with Region Proposal Networks

arXiv:1506.01497

参考：

初读

目前已经了解了目标检测最基础的3个算法：R-CNN、SSPNet和Fast R-CNN，后两者都是基于R-CNN的优化，所以说R-CNN是深度学习目标检测的开山之作。

R-CNN存在不足之处，1张图片使用SS（Selective Search）算法生成的2k个候选框分别输入CNN提取特征值，时间开销太大，且要求固定图片输入尺寸，后两者对于R-CNN的优化之处在于

SPPNet

只对原始图片进行1次卷积，将候选框映射到特征图上，再进行后续处理

提出SPP layer，可以处理任意大小的图片
Fast R-CNN

将提取特征值、分类、bbox整合，形成单阶段模型

简化SSP layer，提出RoI pooling layer

在分类和bbox 回归时使用全连接网络，而不是之前的SVMs

3个模型共同之处时他们的第1步都是使用SS算法生成候选框，论文提出这个操作是整个模型的瓶颈，提出了RPN（Region Proposal Network），可以实现几乎没有时间开销的情况下生成高质量的候选框。将RPN技术和Fast R-CNN结合提出了Faster R-CNN模型，实现实时（Real-Time）目标检测算法。