rpn网络结构再分析

这是rpn网络train阶段的网络结构图

rpn_conv1之前的网络是特征提取层，也是和fast rcnn共享的层。rpn_conv1是一层1*1的卷积，这一层是单独为rpn网络多提取一层特征，这一层之后就接两个输出channel层不同的1*1的卷积（即分别进行score的预测和坐标补偿值的预测），这样保证feature map的大小不变。

rpn_cls_score：bach_size*18*width*height

rpn_cls_score_reshape：batch_size*2*(9*width)*height

rpn_bbox_pred：batch_size*36*width*height。每4个channel对应一种类型的anchor（即一个尺寸和一个ratio），因为有9种类型的anchor，所有一共也就有36个channel。以前4个channel为例，第一个channel的feature map每一个值是每个位置中心点x方向的补偿值dx，第二个channel的feature map每一个值是每个位置中心点y方向的补偿值dy，第三个channel的feature map每一个值是每个位置宽度的补偿值dw，第四个channel的feature map每一个值是每个位置长度的补偿值dh。再来说一下这前四个channel的每个feature map，这4个channel的feature map的相对应位置都是对应的一个anchor，比如4个channel的第一个值都是对应的第一种类型anchor的第一个anchor。每个feature map是width*height大小，也就有width*height个值，生成rpn本身就是在这个feature map上进行滑动生成（width*height*anchor类别数）个anchor，这样的话，第一个feature map的第一个值对应的应该是第一种类型的anchor在这个位置上dx补偿值。

为什么不直接从rpn_conv1生成rpn_cls_score_reshape？

channel变成2很好实现，但feature map的宽度是个问题。因为rpn_cls_score_reshape的feature map的宽度是9*width，而rpn_conv1是width，直接卷积变成宽度的9倍，我目前还没看到过，reshape成9倍就很好实现。并且对于后面的rpn生成也有帮助，这个后续还要写一些东西

那为什么又要转成rpn_cls_score_reshape的形状呢？

主要是为了分成两类，然后计算概率值，最开始只是一个score值

posted @ 2018-01-21 23:16 有梦就要去实现他阅读(2006) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

rpn网络结构再分析

公告