阅读论文(7)Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks

arXiv:1506.01497

参考:

FasterRCNN_哔哩哔哩_bilibili

初读

目前已经了解了目标检测最基础的3个算法:R-CNN、SSPNet和Fast R-CNN,后两者都是基于R-CNN的优化,所以说R-CNN是深度学习目标检测的开山之作。

R-CNN存在不足之处,1张图片使用SS(Selective Search)算法生成的2k个候选框分别输入CNN提取特征值,时间开销太大,且要求固定图片输入尺寸,后两者对于R-CNN的优化之处在于

  • SPPNet

    只对原始图片进行1次卷积,将候选框映射到特征图上,再进行后续处理

    提出SPP layer,可以处理任意大小的图片

  • Fast R-CNN

    将提取特征值、分类、bbox整合,形成单阶段模型

    简化SSP layer,提出RoI pooling layer

    在分类和bbox 回归时使用全连接网络,而不是之前的SVMs

3个模型共同之处时他们的第1步都是使用SS算法生成候选框,论文提出这个操作是整个模型的瓶颈,提出了RPN(Region Proposal Network),可以实现几乎没有时间开销的情况下生成高质量的候选框。将RPN技术和Fast R-CNN结合提出了Faster R-CNN模型,实现实时(Real-Time)目标检测算法。

image-20230212113409681

提出RPN是论文主要的贡献,另外还有一些细节贡献

  • 提出了anchor boxs(锚框)的概念
  • RPN和Fast R-CNN共享卷积层
  • 将候选框的选取和后面的特征提取、分类和bbox回归组成一个统一整体
image-20230212113836614

摘要中提到了注意力机制(attention mechanisms),还不了解

再读

Faster R-CNN的整体架构如下图所示

image-20230212104535893

RPN部分具体结构如下图所示

image-20230212104729814

整体架构,实现了端到端(end-to-end),将候选框的选取也作为网络的一部分

image-20230214085553759
posted @ 2023-02-14 08:57  dctwan  阅读(18)  评论(0编辑  收藏  举报