物体检测相关——学习笔记

1.概述

对图片/视频，用框(bounding box)标出物体的位置，并给出物体的类别。

2. 物体检测数据集

PASCAL VOC, 20类, 比较简单, 图片中物体所占比较大比较少; http://host.robots.ox.ac.uk/pascal/VOC/

COCO, 微软做的，80类物体, 单张物体稠密, 验证检测器性能常用数据集。http://cocodataset.org/#home

3. 评价检测器的性能

绿色为人手工标注的ground truth，红色是检测器标注的。

怎么评价检测器的性能：

3.1 Intersection over Union(IoU)交并比

是预测框与label的交集比上两者并集的比值；若为１则为最优分类器，一般来说IOU>0.5就代表预测正确。

3.2 precision-recall curve（PR曲线）精度-召回曲线

改变置信度的阀值计算精度和召回，做出曲线，代表评测器综合性能。

对于一张图片的检测结果，每一个结果都有一个对应的得分，得分代表一种检测的结果置信度，根据检测结果可以计算得到TP，FP，FN，TN等，通过不断改变阈值就可以绘制出PR曲线。

特点：整体趋势，随着召回率的增加精度下降，但局部会发生增加现象。

原因：整体下降：随着置信度阀值的降低召回率基本不变，而精度会逐渐降低；局部增加：正例中含有假正例子还造成局部增加。

将检测结果按照得分降序排序；打标签，一对一规则。

不断改变阈值。

4、物体检测算法

不管是传统方法还是深度学习方法都可以看作：搜索加分类；

传统方法中是滑动窗，提取窗口内的部分进行物体检测。

框的大小固定，将图像resize为各种大小的图片集合(图像金字塔)，使得框内的部分大小变化，从而实现用固定大小的框检测不同大小的物体。

传统的方法：人工手动特征+浅层分类器

基于深度学习网络：带有标签的数据+深度神经网络

传统方法:

论文1：Robust Real-Time Face Detection

使用了滑动窗+图像金字塔

Haar特征，用白框的像素值减去灰框中的像素值，得到的结果是该区域的Haar特征值

级联分类器

论文2：Deformable Part Models（DPM）

特征HOG+分类器SVM，图像金字塔

深度学习方法:

论文1 R-CNN

http://islab.ulsan.ac.kr/files/announcement/513/rcnn_pami.pdf

传统方法与神经网络结合，使用传统方法生成候选区域，候选区域resize到固定尺寸后，送入CNN分类。

主要贡献：用CNN取代了原来的特征提取和分类器。

论文2 Fast RCNN

https://arxiv.org/pdf/1504.08083.pdf

RCNN的问题是会重复计算。对每个候选区域，可能会有重叠，在重复计算。

FastRCNN将图片送入CNN，得到特征图，feature map。

使用了ROI pooling，转为固定尺寸的大小，后接全连接。

主要贡献：避免了相同区域的特征重复提取。但是目前的候选区域生成都是传统方法，成为瓶颈。

具体改进是将原始图片直接送进CNN网络，之后在输出的feature map上进行候选区域的选择；同时引入了一层ROI pooling，用来将候选区域转换为固定大小的feature map。转化出来的feature map转换为全连接层，之后继续进行特征分类以及ＢＢ回归。这种方法共享了特征图计算，节省了大量计算量。