图像检测算法

分类：通常图像分类并没有什么用处，只是得出一张图片里面有什么。
定位＋分类：知道图片中有个什么，也把这个物体定位出来了，但是也没啥用，因为日常生活中一张图片中可能有多个物体。
物体检测：做到这一步在实际中就有用处了。

IOU（交并比）

用于衡量定位的准确度，　一般IOU　>= 0.5 可认为定位成功。

上图中真实的由蓝框标记，红框为算法框出来的。

mAP（mean Average Precision 平均精度均值）

*　用于衡量模型在测试集检测精度的优劣程度。

综合考虑召回率和精度，ｍAP越高表示检测结果越好。

ｍAP计算原理

召回率/查全率（recall）:选的Ｎ个样本中选对的ｋ个正样本，占总的Ｍ个正样本的比例　k/M;
精度/查准率（precision）：选的Ｎ个样本中选对ｋ个正样本的比例　k/N;

选择的样本Ｎ越多,召回率越高，查准率越低；

置信度(阈值)越低，选中的样本越多，精度越低，召回率越高。

mAP就是计算上图中折线图与坐标轴之间的面积。

Two-stage

R-CNN系列

R－ＣＮＮ系列变化的主要特征是将越来越多的部分交給神经网络做。

R-CNN : Girshick R, Donahue J, Darrell T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C].2014.
Fast R-CNN:Girshick R, Fast R-CNN[j].Computer Science, 2015
Faster R-CNN : Ren S, He Km Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[C], 2015:91-99

R-CNN

R-CNN的主要步骤

候选区域提取：使用Selective Search 从输入图片中提取２０００个左右的候选区域
特征提取：　首先将所有的候选区域裁剪缩放为固定大小，再用AlexNet(5conv + 2FC)提取图像的特征。
线性分类：　用特定类别的线性SVMs 对每个候选区域做分类。
*　边界框回归：用线性回归修正边界框的位置与大小，其中每个类别单独训练一个边界框回归器。

这里只有特征提取用到深度学习。

１．候选区域提取　步骤

层次化分组算法
１）用基于图的图像分割方法创建初始区域。
２）计算所有的相邻区域的相似度。
　３）每次合并相似度最高的两个相邻的图像区域，并计算合并后的区域与其相邻区域的相似度。重复改过程，直到所有的图像合并
成一张完整的图像。
（前面的三步是不是聚类的操作）
　４）提取所有图像区域的目标位置框，并按层级排序（覆盖整个图像的区域的层级为１）。
在不同图像分割阈值、不同色彩空间、以及不同的相似度（综合考虑颜色、纹理、大小、重叠度）下。调用层次化分组算法，对所有合并策略下得到的位置框按层级*RND排序，去掉冗余框。
取一定个数的候选区域作为后续卷积神经网络的输入。（R-CNN取２０００个）。

NMS（非极大值抑制　Ｎon-Maximum Suppression）　用于去掉冗余选框。

分类与回归

2000个候选框得到4096个特征，然后每个类别有一个２１个分类（包括一个背景分类器）得到２０个类别，然后去掉冗余框，微调校准选框。

R-CNN缺点

重复计算：需要对两千候选框做CNN,计算量很大，而且有很多的重复计算。
SVM模型：在标注数据足够的时候不是最好的选择。
多个步骤：候选区域提取，特征提取，分类，回归都要单独训练，大量中间数据需要保存。
检测速度慢：GPU处理一张图片需要１３秒，cpu上则需要５３秒。

改进：能否避免候选框特征提取过程的重复的计算？

fast R-CNN

Fast R-CNN的主要步骤

候选区域的提取：　通过Ｓelective Search 从原始图片中提取2000个左右的区域候选框。（与R-CNN相比没有变化）。
特征提取：　原始图像输入CNN网络，得到特征图。（与R-CNN相比,这里是将原始图片进行了一次特征提取）。
ROI-Pooling: 根据 映射关系，将 不同尺寸的候选框 在 特征图上的对应区域 池化为 维度相同的特征图 （因为全连接层要求输入的尺寸固定）。
全连接层：将维度相同的特征图转化为ROI特征向量（ROI feature vector）。
分类与回归：经过全连接层，再使用softmax分类器进行识别，用回归器修正边界框的位置与大小，最后对每个区域做NMS.

ROI Pooling

Fast R-CNN改进之处

直接对整张图片做卷积，不再对每个候选区域分别做卷积，从而减少大量的重复计算。
用ROI　pooling对不同的候选框做尺寸的归一化。
将边界回归器放进网络一起训练，每个类别对应一个回归器。
用softMax代替SVM分类器。
Fast R-CNN缺点：
候选区域的提取依旧使用Selective search，目标检测时间大多都消耗在这上面。（region proposal 2-3 s,而特征分类只需要０．３２ｓ）。

faster R-CNN

寻找更加高效的候选区域生成方法? 如何将所有的东西都用神经网络处理？

faster R-CNN主要的步骤：
１．　卷积层：输入图片经过多层卷积神经网络（ＺＦ,VGG）,提取卷积特征图，供给RPN网络和Fast R-CNN使用，RPN网络和Fast R-CNN 共享
特征提取网络可减少计算时间。
２．　RPN层：生成候选区域，并用softmax判断候选框是前景还是背景，从中选取前景候选框并利用bounding box regression调整候选框的位置，得到候选区域。