faster rcnn学习（一）

2018-11-12

　　今天是周一，定了个小目标一周完成对faster rcnn的学习。今天是第一天，主要解决四个问题。

1.RPN的回归如何计算？

其中，回归的是坐标偏移量，偏移量计算方式如图所示，x表示GT坐标，x*表示预测坐标，xa表示anchor box的坐标。我们认为anchor box与GT间IOU很大时，很相似，可以线性转换，通过缩放和平移的方式将anchor box转换为GT,缩放和平移通过偏移量表示。

我们希望学习到预测偏移量（预测坐标与GT的偏移量）和anchor偏移量（anchor box坐标与GT偏移量）相等，这样我们输出预测偏移量时，根据anchor box转换成的坐标与GT坐标最接近。

2.特征点坐标如何映射到原图？

特征点坐标与原图坐标的关系就是resize的方式坐标映射方式，两者间相对应的坐标关系等于两者间相对应的长宽大小。

若不是整数比，则可以使用线性插值，双线性插值等方式获取对应坐标。

3.如何将映射到原图的中心点获取9个anchor box？

第2点将特征点映射回原图坐标，原图并不是数据集上的图像大小，而是将短边resize到600，长边等比例缩放的图片大小。

获得中心点坐标后，通过anchor_ratio=0.5,1,2 这是三种长宽比，基础长宽为16,16，计算三种长宽

anchor_scales=8,16,32，三种长宽缩放比，对基础长宽进行等比例缩放，共获得9个anchor box。对anchor box做筛选，超过原图大小的不计入后续计算。

后续在原图上的获得的anchor box与GT做IOU，获得标签。

4。roiPooling具体是如何操作的？

通过预测的偏移量计算原图的坐标，获取候选区域，在将候选区域的坐标对应到输出的特征图，坐标对应关系与第2点相似。

然后对不同大小的特征图进行pooling，成相同大小的特征图。

pooling方式可以使用不同的核大小和步长方式；

也可以使用分块的方式用max pooling进行相同大小的特征输出。

posted @ 2018-11-14 09:20 happy学习,happy生活阅读(842) 评论(0) 编辑收藏举报

刷新页面返回顶部

happy学习,happy生活