ROI pooling
R-CNN需要大量的候选框,对每个候选框都提取特征,速度很慢,无法做到实时检测,无法做到端到端。ROI pooling层实现training和testing的显著加速,并提高检测accuracy。
ROI pooling层能对不等尺寸的输入执行最大汇集以获得固定尺寸的特征映射,根据候选区域裁剪卷积特征图,然后用插值(通常是双线性的)将每个裁剪调整为固定大小(14×14×convdepth)。裁剪之后,用 2x2 核大小的最大池化来获得每个建议最终的固定的 7×7×convdepth 特征图,然后进行后续的全连接层操作。
该层有两个输入:
- 从具有多个卷积核池化的深度网络中获得的固定大小的feature maps;
- 感兴趣区域列表,第一列表示图像index,其余四列表示其余的左上角和右下角坐标: