阅读论文(4)R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation

阅读论文(3)R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation

参考:

R-CNN算法精讲 - 同济子豪兄 -_哔哩哔哩_bilibili

1.1Faster RCNN理论合集_哔哩哔哩_bilibili

初读

提出R-CNN模型用于在提张图片中框出检测到的物体,并识别图中的各个物体

将region proposals和CNN相结合得R-CNN

两个关键点

  1. region proposals和CNN相结合
  2. 如果标注的数据比较少,为了使模型表现提升,采用预训练和调整策略

PASCAL VOC

国际顶级计算机视觉竞赛,Pattern Analysis, Statistical Modeling and Computational Learning,涌现了一大批目标检测分割模型。

ILSVRC 挑战赛使用ImageNet(数据库),涌现了优秀的分类模型Alexnet、Resnet

分类和检测的区别,检测需要在图片中定位出物体

计算机视觉的基本任务

image-20230205161737703

学习路线(经典论文发表时间)

image-20230205162036325

红色是分类模型,绿色是目标检测模型

两个关键点具体是什么

传统物体检测使用的技术是HOG、SIFT(不知道是啥) , 将ILSVRC上的成果CNN运用到PASCAL VOC 竞赛上用于物体检测,面临两个问题

  1. 用CNN定位物体

    解决方法是recognition with regions

    image-20230205152148878
  2. 用少量的标注数据训练容量比较大的CNN

    传统解决方法:使用无监督学习预训练模型,然后再使用监督学习进行微调(fine-turning)

    本文解决方法:使用辅助数据集ILSVRC进行监督学习预训练,然后在PASCAL数据集上进行训练微调

解决的两个问题即是本文的两大主要贡献

R-CNN模型的构成

由3个模块组成

  1. 选取候选框

    Selective Search算法,生成2k个候选框

  2. 特征提取

    卷积神经网络,提取出4096维特征

  3. 线性分类SVMs(支持向量机)

    深度学习神经网络之前的分类器主要是SVM(二分类)

  4. bounding-box

    精细修正候选框位置

image-20230212080623365

R-CNN存在的问题

  1. 测试速度慢

    Selective Search选取候选框需要2s,且同一个图像选取2k个候选框,特征提取由大量的冗余操作

  2. 训练速度慢

    训练过程繁琐

  3. 存储空间开销大

    对于SVM和bbox,需要从每个候选框提取特征,并写入磁盘

posted @ 2023-02-10 07:16  dctwan  阅读(29)  评论(0编辑  收藏  举报