FasterRCNN----RPN结构与训练样本 - 弥漫的幻雪

一、RPN网络结构

虚线之上，是RPN结构之前的网络结构，可以替换为VGG、ResNet等

假如输入图像是1000*600，则经过了几次stride后，map大小缩小了16倍，最后一层卷积层输出大约为60*40大小，那么相当于用3*3的窗口滑窗（注意有padding），对于左边一支路而言，输出18个通道，每个通道map大小仍为60*40，代表每个滑窗中心对应感受野内存在目标与否的概率。右支路同理。

二、Anchor

Anchor是候选区域的意思。候选区域的生成方式如图。

因此，在对60*40的map进行滑窗时，以中心像素为基点构造9种anchor映射到原来的1000*600图像中，映射比例为16倍。那么总共可以得到60*40*9大约2万个anchor。

三、训练

对于左支路，ground truth为anchor是否为目标，用0/1表示。那么怎么判定一个anchor内是否有目标呢？论文中采用了这样的规则：1）假如某anchor与任一目标区域的IoU最大，则该anchor判定为有目标；2）假如某anchor与任一目标区域的IoU>0.7，则判定为有目标；3）假如某anchor与任一目标区域的IoU<0.3，则判定为背景。所谓IoU，就是预测box和真实box的覆盖率，其值等于两个box的交集除以两个box的并集。其它的anchor不参与训练。

由此可知，RPN的训练数据是符合要求的anchors，标签是anchors的前景/背景分类以及坐标

发表于 2018-05-05 20:16 弥漫的幻雪阅读(685) 评论(0) 编辑收藏举报