Faster R-CNN基本原理
1.结构图
2.RPN原理图
主干(backbone)网络输出feature maps,通过RPN得到proposals(也就是包含前景的候选框)。
RoI pooling在feature maps中提取出proposals 对应位置上的feature。
再利用feature得到更佳精确的候选框,以及候选框中前景所属的类别。
1、RPN
RPN在图中feature maps上进行3×3的卷积,num_output=256,在分别进行1×1的卷积,从而feature maps中的每个点都得到k个(论文中取9)boxes和k个cls。
其中boxes边框回归参数,每个点的9个boxes分别与如下图所示的9个anchor boxes(在输入图像中以该点为中心具有一定比例和大小的边框坐标(x1,y1,x2,y2))通过回归对边框坐标进行修正。
cls用于判断边框中的特征是属于前景还是属于背景。
其中boxes和cls是网络要学习得到的特征,而anchor boxes是设置的超参数。这样,feature maps 上的每个点都能得到输入图像中对应的9个边框坐标。但这些边框并不是RPN得到的proposals,
还要根据cls的到其属于前景的概率,根据概率剔除一些边框,并进行NMS(non maximum suppression)非极大值抑制,也即如果两个边框重合度大于某一直时,剔除属于前景概率低的那个边框。
如果是训练阶段,还会根据与ground truth的边框重合度将剩余边框继续分为前景边框和背景边框。最后将输入图像中的边框坐标转换到feature maps上的边框坐标,得到proposals.
Make Complicate to Easy!