Spatial pyramid pooling (SPP)-net (空间金字塔池化)笔记(转)

在学习r-cnn系列时,一直看到SPP-net的身影,许多有疑问的地方在这篇论文里找到了答案。

论文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

转自:http://blog.csdn.net/xzzppp/article/details/51377731

另可参考:http://zhangliliang.com/2014/09/13/paper-note-sppnet/

               http://sinb.github.io/Whatyouknowabout/spp-net-1/

1、简介

空间金字塔池化,使得任意大小的特征图都能够转换成固定大小的特征向量,这就是空间金字塔池化的意义(多尺度特征提取出固定大小的特征向量),

送入全连接层。整体框架大致为:输入图像,卷积层提取特征,空间金字塔池化提取固定大小特征,全连接层。

具体的流程图如下:

 

 

2、具体算法的大体流程  

     首先通过选择性搜索(selective search),对待检测的图片进行搜索出2000个候选窗口。这一步和R-CNN一样。

特征提取阶段。这一步就是和R-CNN最大的区别了,同样是用卷积神经网络进行特征提取,但是SPP-Net用的是金字塔池化。这一步骤的具体操作如下:

把整张待检测的图片,输入CNN中,进行一次性特征提取,得到feature maps,然后在feature maps中找到各个候选框的区域,再对各个候选框采用金字塔空间池化,

提取出固定长度的特征向量。而R-CNN输入的是每个候选框,然后在进入CNN,因为SPP-Net只需要一次对整张图片进行特征提取,速度是大大地快啊。江湖传说可一个提高100倍的速度,

因为R-CNN就相当于遍历一个CNN两千次,而SPP-Net只需要遍历1次。最后采用SVM算法进行特征向量分类识别,和R-CNN一样。

3、关键步骤解释

    3.1 如何在feature maps中找到原始图片中候选框的对应区域

          

 

posted @ 2016-11-16 21:45  牧马人夏峥  阅读(7931)  评论(0编辑  收藏  举报