在原feature map上经过卷积生成与原feature map一样w、h大小的feature map,但是channel变为2倍,即2N。2N代表的是每个像素x、y两个方向的偏移量。
这个偏移量生成的坐标大概率是float型的,但像素或者feature map只有在整数位置才有值。所以找最近的4个整数位置的像素点进行双线性插值获得当前位置的值(这个与roi-align类似,都是通过对x、y取整和取整+1就能获得最近的4个坐标点)