(目标检测)--- RCNN算法理解

RCNN(Region CNN)

地位

是利用深度学习进行目标检测的开山之作。

解决的问题

  1. 速度:相较于之前使用滑动窗法依次判断所有可能区域,RCNN则先提取出可能是物体的候选区域,再从候选区域中提取特征,进行判断。
  2. 训练集:训练集的选取不同。经典的目标检测算法使用人工提供的特征(Harr,HOG),而RCNN则需要训练深度网络来进行特征提取。

流程

RCNN算法主要有四个步骤:

  • 输入一张图像,提取出(1~2k)的候选区域
  • 对候选区域中的图片用深度网络进行特征提取
  • 提取出的特征送入每一类的SVM分类器判别是否属于该类
  • 使用回归器精细修正候选框位置。
    在这里插入图片描述

候选区域的生成

使用Selective Search(从图片中找出物体可能存在的区域,检测的时间复杂度可能会很高,只负责快速地生成可能是物体的区域,而不做具体的检测)方法将一张图片生成2000-3000个候选区域。

基本思路如下:

  • 通过图像分割算法,将图像分割成小区域。
  • 针对这些小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域。
  • 输出所有曾经存在过的区域,即候选区域。

候选区域的生成和后续步骤相互独立,因此可以对算法进行改良。

合并规则

优先合并以下四种情况:

  • 颜色(颜色直方图)相近的;
  • 纹理(梯度直方图)相近的;
  • 合并后总面积小的;
  • 合并后,总面积在其BBOX(包含物体的最小矩形)中所占比例最大。

注意:①合并必须保证尺度大小均匀,避免一个大区域陆续吃掉其他小区域。②保证合并后的形状规则。

合并后的区域特征可以直接由子区域特征计算而来,速度较快

多样化与后处理

为了不遗漏候选区域,上述操作在多个颜色空间中同时进行(RGB,HSV,Lab等)。在一个颜色空间中,使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。

特征提取

预处理
在使用深度神经网络进行特征提取之前,首先将候选区域归一化成同一尺寸的。
此处有一些细节可做变化:外扩的尺寸大小形变时是否保持原比例对框外区域直接截取还是补灰,都会轻微影响性能。

预训练

网络结构:
借鉴Hinton2012年在Image Net上的分类网络
在这里插入图片描述
此网络提取的特征为4096维,之后送入一个4096->1000的全连接(fc)层进行分类。
学习率0.01。

训练数据
使用ILVCR 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号。

调优训练

网络结构
同样使用上述网络,最后一层换成4096->21的全连接网络。
学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景。

训练数据
使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景。
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。

类别判断

分类器
对每一类目标,使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征,输出是否属于此类。
由于负样本很多,使用Hard Negative Mining(负样本挖掘)方法。

正样本
本类的真值标定框。
负样本
考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本。

位置精修

目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。

回归器
对每一类目标,使用一个线性脊回归器进行精修。正则项λ=10000。
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。

训练样本
判定为本类的候选框中,和真值重叠面积大于0.6的候选框。

结果

论文发表的2014年,DPM(Deformable Parts Model)目标检测算法已经进入瓶颈期,即使使用复杂的特征和结构得到的提升也十分有限。本文将深度学习引入检测领域,一举将PASCAL VOC上的检测率从35.1%提升到53.7%。
本文的前两个步骤(候选区域提取+特征提取)与待检测类别无关,可以在不同类之间共用。这两步在GPU上约需13秒。
同时检测多类时,需要倍增的只有后两步骤(判别+精修),都是简单的线性运算,速度很快。这两步对于100K类别只需10秒。

posted @ 2019-09-28 13:48  旅人_Eric  阅读(290)  评论(0编辑  收藏  举报