Spatial pyramid pooling (SPP)-net （空间金字塔池化）笔记（转）

在学习r-cnn系列时，一直看到SPP-net的身影，许多有疑问的地方在这篇论文里找到了答案。

论文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

转自：http://blog.csdn.net/xzzppp/article/details/51377731

另可参考：http://zhangliliang.com/2014/09/13/paper-note-sppnet/

http://sinb.github.io/Whatyouknowabout/spp-net-1/

1、简介

空间金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的意义（多尺度特征提取出固定大小的特征向量），

送入全连接层。整体框架大致为：输入图像，卷积层提取特征，空间金字塔池化提取固定大小特征，全连接层。

具体的流程图如下：

2、具体算法的大体流程

首先通过选择性搜索（selective search），对待检测的图片进行搜索出2000个候选窗口。这一步和R-CNN一样。

特征提取阶段。这一步就是和R-CNN最大的区别了，同样是用卷积神经网络进行特征提取，但是SPP-Net用的是金字塔池化。这一步骤的具体操作如下：

把整张待检测的图片，输入CNN中，进行一次性特征提取，得到feature maps，然后在feature maps中找到各个候选框的区域，再对各个候选框采用金字塔空间池化，

提取出固定长度的特征向量。而R-CNN输入的是每个候选框，然后在进入CNN，因为SPP-Net只需要一次对整张图片进行特征提取，速度是大大地快啊。江湖传说可一个提高100倍的速度，

因为R-CNN就相当于遍历一个CNN两千次，而SPP-Net只需要遍历1次。最后采用SVM算法进行特征向量分类识别，和R-CNN一样。

3、关键步骤解释

3.1 如何在feature maps中找到原始图片中候选框的对应区域

posted @ 2016-11-16 21:45 牧马人夏峥阅读(7931) 评论(0) 编辑收藏举报

刷新页面返回顶部

牧马人夏峥