《Cascaded Pyramid Network for Multi-Person Pose Estimation》论文阅读及复现笔记

一、PipeLine 要点

TopDown + GlobalNet + RefineNet

二、Motivation

通过提高对难以识别的关键点的识别准确率,来提升总体识别准确率。

方法:1.refineNet中提升感受野

           2. 在线难例挖掘

三、关键点

1. 软非最大值抑制(Soft NMS)

 Hard NMS是将IOU超过阈值之后的,分数比较差的框直接过滤掉,保留框相对较少。软非最大值抑制将分数较差的框的得分进一步抑制降低但保留(前提是IOU达到阈值以上),提升了一定的物体检测的召回率,从而提升了最终的AP,实验图如下:

 

 感觉提升点并不明显,召回率提升应该对CoCo打榜有好处

2. GlobalNet

1. 使用3*3卷积对resNet的C2~C5层进行计算,回归出热度图。浅层特征图具备足够的空间信息来进行定位,深层特征具备足够的语义信息做识别

2. 实际上模型是借鉴了FPN做各层feature的层间融合并分别进行不同尺度的预测,输出L2 Loss,与FPN不同的是,在融合前使用1*1卷积进行了维度控制

结构图可参考论文,以下为打印出的层次结构(基于resNet-50):

4层feature分别输出了4套热度图

 

 3.RefineNet

与hourglass的refine策略不同之处在于,CPN采用了所有的金字塔特征图而不是单一的最后一层上采样特征图。

 

 

4.OHKM 在线难例挖掘

Global回归的17个热度图,可以划分为难例和易例,人工区分不是好办法,因此从loss角度进行区分,将17个loss排序,loss相对较大的keypoints回传,剩下的简单的一部分,不回传或置0

 

 可以看出M在8左右的时候性能最佳

5. preprocessing

图片尺寸放大对数值提升有影响,但方形图片扩充后包含信息不会起太大作用,Batch降低还会导致AP降低,图片预处理宽高比不应设置成1:1

 

四、疑问

依然没有tracking相关的介绍

以上数值包括Coco挑战比赛均基于旷视Meg Brain平台

posted on 2019-10-28 10:14  体态的滑翔机  阅读(747)  评论(0编辑  收藏  举报