Fast RCNN

回顾

RCNN与Sppnet

可见，Sppnet依然是用了SVM加bbox regression这个套路。

创新点

1>联合训练

实现大部分end-to-end训练(提proposal阶段除外)：所有的特征都暂存在显存中，就不需要额外的磁盘空。
joint training （SVM分类，bbox回归联合起来在CNN阶段训练）把最后一层的Softmax换成两个，一个是对区域的分类Softmax（包括背景），另一个是对bounding box的微调。这个网络有两个输入，一个是整张图片，另一个是候选proposals算法产生的可能proposals的坐标。（对于SVM和Softmax，论文在SVM和Softmax的对比实验中说明，SVM的优势并不明显，故直接用Softmax将整个网络整合训练更好。对于联合训练：同时利用了分类的监督信息和回归的监督信息，使得网络训练的更加鲁棒，效果更好。这两种信息是可以有效联合的。）

2>RoI层

提出了一个RoI层，算是SPP的变种，SPP是pooling成多个固定尺度，RoI只pooling到单个固定的尺度（论文通过实验得到的结论是多尺度学习能提高一点点mAP，不过计算量成倍的增加，故单尺度训练的效果更好。）

3>其他贡献点

指出SPP-net训练时的不足之处，并提出新的训练方式，就是把同张图片的prososals作为一批进行学习，而proposals的坐标直接映射到conv5层上，这样相当于一个batch一张图片的所以训练样本只卷积了一次。文章提出他们通过这样的训练方式或许存在不收敛的情况，不过实验发现，这种情况并没有发生。这样加快了训练速度。（实际训练时，一个batch训练两张图片，每张图片训练64个RoIs（Region of Interest））,记住记住，每张图64个ROIs。

注意点

*论文在回归问题上并没有用很常见的2范数作为回归，而是使用所谓的鲁棒L1范数作为损失函数。
*论文将比较大的全链接层用SVD分解了一下使得检测的时候更加迅速。虽然是别人的工作，但是引过来恰到好处（矩阵相关的知识是不是可以在检测中发挥更大的作用呢？）。

ROI Pooling

与SPP的目的相同：如何把不同尺寸的ROI映射为固定大小的特征。ROI就是特殊的SPP，只不过它没有考虑多个空间尺度，只用单个尺度。如下图所示：

ROI Pooling的具体实现可以看做是针对ROI区域的普通整个图像feature map的Pooling，只不过因为不是固定尺寸的输入，因此每次的pooling网格大小得手动计算，比如某个ROI区域坐标为:
那么输入size为:

如果pooling的输出size为:那么每个网格的size为:

具体来讲，比如feature map 是1000×1000的，你想得到10×10的固定卷积特征图，那么就需要一个100×100的窗。

Bounding-box Regression(最重要的)

有了ROI Pooling层其实就可以完成最简单粗暴的深度对象检测了，也就是先用selective search等proposal提取算法得到一批box坐标，然后输入网络对每个box包含一个对象进行预测，（此时，神经网络依然仅仅是一个图片分类的工具而已，只不过不是整图分类，而是ROI区域的分类），显然大家不会就此满足，那么，能不能把输入的box坐标也放到深度神经网络里然后进行一些优化呢？rbg大神于是又说了"yes"。
于是，在Fast-RCNN中，有两个输出层：第一个是针对每个ROI区域的分类概率预测