Faster R-CNN基本原理

　　　　　　　　　　　　　　　　　　1.结构图

　　　　　　　　　　　　　　2.RPN原理图

　　主干(backbone)网络输出feature maps，通过RPN得到proposals(也就是包含前景的候选框)。

　　RoI pooling在feature maps中提取出proposals 对应位置上的feature。

　　再利用feature得到更佳精确的候选框，以及候选框中前景所属的类别。

1、RPN

　　RPN在图中feature maps上进行3×3的卷积，num_output=256，在分别进行1×1的卷积，从而feature maps中的每个点都得到k个（论文中取9）boxes和k个cls。

其中boxes边框回归参数，每个点的9个boxes分别与如下图所示的9个anchor boxes（在输入图像中以该点为中心具有一定比例和大小的边框坐标（x1,y1,x2,y2））通过回归对边框坐标进行修正。

cls用于判断边框中的特征是属于前景还是属于背景。

其中boxes和cls是网络要学习得到的特征，而anchor boxes是设置的超参数。这样，feature maps 上的每个点都能得到输入图像中对应的9个边框坐标。但这些边框并不是RPN得到的proposals,

还要根据cls的到其属于前景的概率，根据概率剔除一些边框，并进行NMS(non maximum suppression)非极大值抑制，也即如果两个边框重合度大于某一直时，剔除属于前景概率低的那个边框。

如果是训练阶段，还会根据与ground truth的边框重合度将剩余边框继续分为前景边框和背景边框。最后将输入图像中的边框坐标转换到feature maps上的边框坐标，得到proposals.

posted on 2017-10-28 17:05 Tron1 阅读(279) 评论(0) 编辑收藏举报

刷新页面返回顶部

Tron1