faster rcnn学习(一)

2018-11-12

  今天是周一,定了个小目标一周完成对faster rcnn的学习。今天是第一天,主要解决四个问题。

1.RPN的回归如何计算?

 

其中,回归的是坐标偏移量,偏移量计算方式如图所示,x表示GT坐标,x*表示预测坐标,xa表示anchor box的坐标。我们认为anchor box与GT间IOU很大时,很相似,可以线性转换,通过缩放和平移的方式将anchor box转换为GT,缩放和平移通过偏移量表示。

我们希望学习到预测偏移量(预测坐标与GT的偏移量)和anchor偏移量(anchor box坐标与GT偏移量)相等,这样我们输出预测偏移量时,根据anchor box转换成的坐标与GT坐标最接近。

 

2.特征点坐标如何映射到原图?

特征点坐标与原图坐标的关系就是resize的方式坐标映射方式,两者间相对应的坐标关系等于两者间相对应的长宽大小。

若不是整数比,则可以使用线性插值,双线性插值等方式获取对应坐标。

 

3.如何将映射到原图的中心点获取9个anchor box?

第2点将特征点映射回原图坐标,原图并不是数据集上的图像大小,而是将短边resize到600,长边等比例缩放的图片大小。

获得中心点坐标后,通过anchor_ratio=0.5,1,2 这是三种长宽比,基础长宽为16,16,计算三种长宽

anchor_scales=8,16,32,三种长宽缩放比,对基础长宽进行等比例缩放,共获得9个anchor box。对anchor box做筛选,超过原图大小的不计入后续计算。

后续在原图上的获得的anchor box与GT做IOU,获得标签。

 

4。roiPooling具体是如何操作的?

通过预测的偏移量计算原图的坐标,获取候选区域,在将候选区域的坐标对应到输出的特征图,坐标对应关系与第2点相似。

然后对不同大小的特征图进行pooling,成相同大小的特征图。

pooling方式可以使用不同的核大小和步长方式;

也可以使用分块的方式用max pooling进行相同大小的特征输出。

 

posted @ 2018-11-14 09:20  happy学习,happy生活  阅读(842)  评论(0编辑  收藏  举报