FPN理论合集
FPN(Feature Pyramid Networks)
FPN提出原因
卷积网络中,深层网络容易响应语义特征,浅层网络容易响应图像特征。然而,在目标检测中往往因为卷积网络的这个特征带来了不少麻烦:
高层网络虽然能响应语义特征,但是由于Feature Map的尺寸太小,拥有的几何信息并不多,不利于目标的检测;浅层网络虽然包含比较多的几何信息,但是图像的语义特征并不多,不利于图像的分类。这个问题在小目标检测中更为突出。
因此,如果我们能够合并深层和浅层特征的话,那么将同时满足目标检测和图像分类的需要。
FPN具体思路
-
图(a): 图像金字塔,先对原始图像构造图像金字塔,然后在图像金字塔的每一层提出不同的特征,然后进行相应的预测,最后统计所有尺寸的预测结果。优点:精度不错;缺点:计算量大,占用内存大。
-
图(b):Feature Map: 使用神经网络某一层输出的feature map进行预测,一般是网络最后一层feature map(例如Fast R-CNN,Faster R-CNN等); 然后靠近网络输入层的feature map包含粗略的位置信息,导致预测的目标框bbox不准确,靠近网络最后一层的feature map会忽略小物体信息。优点:速度快,内存少;缺点:仅关注深层网络中最后一层的特征,却忽略了其他层的特征
-
图(c):特征金字塔:同时利用低层特征和高层特征。就是首先在原始图片上面进行深度卷积,然后分别在不同的特征层上面进行预测。
优点:在不同的层上面输出对应的目标,不需要经过所有曾才输出对应的目标,速度更快,又提高了算法的检测性能;缺点:获得的特征不鲁棒,都是一些弱特征。
-
图(d):特征金字塔网络:对对底层的特征进行向上采样,并与底层特征进行融合,得到高分辨率、强语义的特征(即加强了特征的提取)。简单概括来说就是:自下而上,自上而下,横向连接和卷积融合。
整体过程:
(1)自下而上:先把预处理好的图片送进预训练的网络,比如像ResNet这些,这一步就是构建自下而上的网络,就是对应下图中的(1,2,3)这一组金字塔。
(2)自上而下:将层3进行一个复制变成层4,对层4进行上采样操作(就是2 * up),再用1 * 1卷积对层2进行降维处理,然后将两者对应元素相加(这里就是高低层特征的一个汇总),这样我们就得到了层5,层6以此类推,是由层5和层1进行上述操作得来的。这样就构成了自上而下网络,对应下图(4,5,6)金字塔。(其中的层2与上采样后的层4进行相加,就是横向连接的操作)
(3)卷积融合:最后我们对层4,5,6分别来一个3 * 3卷积操作得到最终的预测(对应下图的predict)。