FPN理论合集

FPN(Feature Pyramid Networks)

FPN提出原因

卷积网络中，深层网络容易响应语义特征，浅层网络容易响应图像特征。然而，在目标检测中往往因为卷积网络的这个特征带来了不少麻烦：

高层网络虽然能响应语义特征，但是由于Feature Map的尺寸太小，拥有的几何信息并不多，不利于目标的检测；浅层网络虽然包含比较多的几何信息，但是图像的语义特征并不多，不利于图像的分类。这个问题在小目标检测中更为突出。

因此，如果我们能够合并深层和浅层特征的话，那么将同时满足目标检测和图像分类的需要。

FPN具体思路

图(a): 图像金字塔，先对原始图像构造图像金字塔，然后在图像金字塔的每一层提出不同的特征，然后进行相应的预测，最后统计所有尺寸的预测结果。优点：精度不错；缺点：计算量大，占用内存大。
图(b):Feature Map: 使用神经网络某一层输出的feature map进行预测，一般是网络最后一层feature map（例如Fast R-CNN,Faster R-CNN等）; 然后靠近网络输入层的feature map包含粗略的位置信息，导致预测的目标框bbox不准确，靠近网络最后一层的feature map会忽略小物体信息。优点：速度快，内存少；缺点：仅关注深层网络中最后一层的特征，却忽略了其他层的特征
图(c):特征金字塔：同时利用低层特征和高层特征。就是首先在原始图片上面进行深度卷积，然后分别在不同的特征层上面进行预测。

优点：在不同的层上面输出对应的目标，不需要经过所有曾才输出对应的目标，速度更快，又提高了算法的检测性能；缺点：获得的特征不鲁棒，都是一些弱特征。
图(d):特征金字塔网络：对对底层的特征进行向上采样，并与底层特征进行融合，得到高分辨率、强语义的特征（即加强了特征的提取）。简单概括来说就是：自下而上，自上而下，横向连接和卷积融合。

整体过程：

（1）自下而上：先把预处理好的图片送进预训练的网络，比如像ResNet这些，这一步就是构建自下而上的网络，就是对应下图中的（1，2，3）这一组金字塔。

（2）自上而下：将层3进行一个复制变成层4，对层4进行上采样操作（就是2 * up），再用1 * 1卷积对层2进行降维处理，然后将两者对应元素相加（这里就是高低层特征的一个汇总），这样我们就得到了层5，层6以此类推，是由层5和层1进行上述操作得来的。这样就构成了自上而下网络，对应下图（4，5，6）金字塔。（其中的层2与上采样后的层4进行相加，就是横向连接的操作）

（3）卷积融合：最后我们对层4，5，6分别来一个3 * 3卷积操作得到最终的预测（对应下图的predict）。

posted @ 2022-10-24 21:56 HoroSherry 阅读(100) 评论(0) 收藏举报

刷新页面返回顶部

赫萝

FPN理论合集

FPN(Feature Pyramid Networks)

FPN提出原因

FPN具体思路

公告