阅读论文(7)Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
arXiv:1506.01497
参考:
初读
目前已经了解了目标检测最基础的3个算法:R-CNN、SSPNet和Fast R-CNN,后两者都是基于R-CNN的优化,所以说R-CNN是深度学习目标检测的开山之作。
R-CNN存在不足之处,1张图片使用SS(Selective Search)算法生成的2k个候选框分别输入CNN提取特征值,时间开销太大,且要求固定图片输入尺寸,后两者对于R-CNN的优化之处在于
-
SPPNet
只对原始图片进行1次卷积,将候选框映射到特征图上,再进行后续处理
提出SPP layer,可以处理任意大小的图片
-
Fast R-CNN
将提取特征值、分类、bbox整合,形成单阶段模型
简化SSP layer,提出RoI pooling layer
在分类和bbox 回归时使用全连接网络,而不是之前的SVMs
3个模型共同之处时他们的第1步都是使用SS算法生成候选框,论文提出这个操作是整个模型的瓶颈,提出了RPN(Region Proposal Network),可以实现几乎没有时间开销的情况下生成高质量的候选框。将RPN技术和Fast R-CNN结合提出了Faster R-CNN模型,实现实时(Real-Time)目标检测算法。

提出RPN是论文主要的贡献,另外还有一些细节贡献
- 提出了anchor boxs(锚框)的概念
- RPN和Fast R-CNN共享卷积层
- 将候选框的选取和后面的特征提取、分类和bbox回归组成一个统一整体

摘要中提到了注意力机制(attention mechanisms),还不了解
再读
Faster R-CNN的整体架构如下图所示

RPN部分具体结构如下图所示

整体架构,实现了端到端(end-to-end),将候选框的选取也作为网络的一部分

【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具
2022-02-14 poj2431:Expedition
2022-02-14 SQL单表查询
2022-02-14 SQL数据定义
2022-02-14 poj3253:Fence Repair