《Cascaded Pyramid Network for Multi-Person Pose Estimation》论文阅读及复现笔记

一、PipeLine 要点

TopDown + GlobalNet + RefineNet

二、Motivation

通过提高对难以识别的关键点的识别准确率，来提升总体识别准确率。

方法：1.refineNet中提升感受野

2. 在线难例挖掘

三、关键点

1. 软非最大值抑制（Soft NMS）

Hard NMS是将IOU超过阈值之后的，分数比较差的框直接过滤掉，保留框相对较少。软非最大值抑制将分数较差的框的得分进一步抑制降低但保留（前提是IOU达到阈值以上），提升了一定的物体检测的召回率，从而提升了最终的AP，实验图如下：

感觉提升点并不明显，召回率提升应该对CoCo打榜有好处

2. GlobalNet

1. 使用3*3卷积对resNet的C2~C5层进行计算，回归出热度图。浅层特征图具备足够的空间信息来进行定位，深层特征具备足够的语义信息做识别

2. 实际上模型是借鉴了FPN做各层feature的层间融合并分别进行不同尺度的预测，输出L2 Loss，与FPN不同的是，在融合前使用1*1卷积进行了维度控制

结构图可参考论文，以下为打印出的层次结构（基于resNet-50）：

4层feature分别输出了4套热度图

3.RefineNet

与hourglass的refine策略不同之处在于，CPN采用了所有的金字塔特征图而不是单一的最后一层上采样特征图。

4.OHKM 在线难例挖掘

Global回归的17个热度图，可以划分为难例和易例，人工区分不是好办法，因此从loss角度进行区分，将17个loss排序，loss相对较大的keypoints回传，剩下的简单的一部分，不回传或置0

可以看出M在8左右的时候性能最佳

5. preprocessing

图片尺寸放大对数值提升有影响，但方形图片扩充后包含信息不会起太大作用，Batch降低还会导致AP降低，图片预处理宽高比不应设置成1:1

四、疑问

依然没有tracking相关的介绍

以上数值包括Coco挑战比赛均基于旷视Meg Brain平台

posted on 2019-10-28 10:14 体态的滑翔机阅读(790) 评论(0) 收藏举报