【CVPR2022】论文阅读：Revisiting Skeleton-based Action Recognition

论文地址：https://arxiv.org/abs/2104.13586

Github：https://github.com/kennymckormick/pyskl

第一单位：港中文

1. Introduction

在本文中，作者提出了一个新的框架poseconov3d，它可以作为基于GCN的方法的竞争替代方案。特别是，PoseConv3D将图1所示的现代姿势估计器获得的2D姿势作为输入。2D姿势由骨骼关节的热图堆栈表示，而不是在人体骨骼图上操作的坐标。不同时间步的热图将沿时间维度堆叠，以形成3D热图体积。PoseConv3D然后在3D热图体积的顶部采用3D卷积神经网络来识别动作。

对比基于GCN的方法，PoseConv3D主要有以下优势：

（1）使用3D热图体素对上游姿势估计更具鲁棒性：我们经验发现PoseConv3D在通过不同方法获得的输入骨架上具有良好的通用性。

（2）poseconov3d依赖于基于表示的热图，享有卷积网络架构的最新进展，并且更容易与其他模式集成到多流卷积网络中。这一特性为进一步提高识别性能开辟了很大的设计空间。

（3）最后，poseconov3d可以处理不同数量的人，而不会增加计算开销，因为3D热图体积的复杂性与人数无关。

2. Related Work

3D-CNN是2D-CNN的自然扩展，用于视频中的时空特征学习，长期以来被用于动作识别。由于参数众多，3D-CNN需要大量视频才能学习良好的表示。自I3D以来，3D-CNN已成为动作识别的主流方法。从那时起，动作识别社区提出了许多先进的3D-CNN架构，在精度和效率上都优于I3D。在这项工作中，我们首先提出使用3D-CNN和3D热图体积作为输入，并获得基于骨架的动作识别的最新技术。

GCN for skeleton-based action recognition 图卷积网络广泛应用于基于骨架的动作识别中，它将人类骨骼序列建模为时空图。ST-GCN是基于GCN的方法的著名baseline，它结合了空间图卷积和交错时间卷积，用于时空建模。在baseline上，adjacency powering用于多尺度建模，而自我注意机制提高了建模能力。尽管GCN在基于骨架的动作识别方面取得了巨大成功，但其鲁棒性和可扩展性也受到限制。此外，对于基于GCN的方法，融合骨架和其他模式的特征可能需要仔细设计。

CNN for skeleton-based action recognition 另一项工作是采用卷积神经网络进行基于骨架的动作识别。基于二维CNN的方法首先基于手动设计的变换将骨架序列建模为伪图像。

3. Framework

下图为模型框架图：

3.1. Good Practices for Pose Extraction

人体骨架或姿势提取是基于骨架的动作识别的关键预处理步骤，在很大程度上影响最终的识别精度。然而，在以前的文献中，它的重要性往往被忽视，在这些文献中，使用传感器估计的姿势或现有的姿势估计器，而不考虑潜在的影响。在这里，我们对姿势提取的关键方面进行回顾，以找到一个好的实践。

通常，与3D姿势相比，2D姿势的质量更好，如图1所示。我们采用2D自顶向下姿态估计器进行姿态提取。与2D自下而上的方法相比，自上而下的方法在COCO keypoints等标准基准上获得了优异的性能。在大多数情况下，我们将人类检测器预测的建议反馈给自上而下的姿势估计器，这足以生成用于动作识别的高质量二维姿势。当几十个候选对象中只有少数几个人感兴趣时，一些先验知识对于基于骨架的动作识别至关重要，以获得良好的性能，例如，知道视频第一帧中感兴趣的人的位置。就估计热图的存储而言，在以前的文献中，它们通常存储为坐标三元组（x，y，c），其中c表示热图的最大得分，（x，y）是c的对应坐标。在实验中，我们发现坐标三元组（x，y，c）在性能几乎没有下降为代价的情况下，有助于节省大部分存储空间。

3.2. From 2D Poses to 3D Heatmap Volumes

从视频帧中提取2D姿势后，为了将其输入PoseConv3D，我们将其重新格式化为3D热图体积。形式上，我们将2D姿势表示为大小为K x H x W的热图，其中K是关节数，H和W是帧的高度和宽度。我们可以直接使用自顶向下姿态估计器生成的热图作为目标热图，在给定相应边界框的情况下，对热图进行零填充以匹配原始帧。如果我们只有骨架关节的坐标三元组（xk，yk，ck），我们可以通过合成以每个关节为中心的K个高斯贴图来获得关节热图J：

σ控制高斯位图（Gaussian maps）的方差，（xk，yk）和ck分别是第k个关节的位置和置信度得分。我们还可以创建肢体热图L：

第k个肢体位于两个关节ak和bk之间。函数D计算从点（i；j）到段[（xak，yak），（xbk，ybk）]的距离。

值得注意的是，尽管上述过程假设每个帧中都有一个人，但我们可以很容易地将其扩展到多人情况，在这种情况下，我们可以直接累积所有人的第k个高斯位图，而无需放大热图。最后，通过沿时间维度叠加所有热图（J或L），获得三维热图体积，因此其大小为K x T x H x W。

在实践中，我们进一步应用两种技术来减少3D热图体积的冗余:

(1) Subjects-Centered Cropping 使热图与框架一样大是低效的，尤其是当感兴趣的人只在一个小区域内活动时,在这种情况下，我们首先找到最小的边界框，该边界框覆盖了帧中的所有2D姿势。然后，我们根据找到的框裁剪所有帧，并将其调整为目标大小。因此，可以在空间上减小3D热图体积的大小，同时保持所有2D姿势及其运动。

(2) Uniform Sampling 通过对帧子集进行采样，还可以沿时间维度减小3D热图体积。与以往基于RGB的动作识别工作不同，研究人员通常在短时间窗口中采样帧，例如在64帧时间窗口中采样帧，如在慢时间窗口中采样帧。我们建议对3D CNN使用统一采样策略，特别是，为了从视频中采样n帧，我们将视频分成n个等长的片段，并随机选择片段中的一帧。均匀采样策略更能保持视频的全局动态。我们的实证研究表明，均匀采样策略对基于骨架的动作识别非常有利。

3.3. 3D-CNN for Skeletonbased-Action Recognition

对于基于骨架的动作识别，GCN长期以来一直是主流主干。相比之下，3D-CNN是一种常用于基于RGB的动作识别的有效网络结构，在这方面的研究较少。为了证明3D-CNN在捕获骨架序列时空动力学方面的能力，我们设计了两个3D CNN系列，即PoseConv3D用于姿势模态，RGB+Pose 双模态的RGBPose-Conv3D。

PoseConv3D PoseConv3D专注于人类骨骼的形态，它将3D热图体积作为输入，并可以使用各种3D-CNN主干进行实例化。要使3D CNN适应基于骨架的动作识别，需要进行两种修改：（1）由于3D热图体积的空间分辨率不需要像RGB片段那么大，所以早期阶段的下采样操作从3D-CNN中删除。（2）较浅（较少的层）和较薄（较少的通道）的网络足以模拟人类骨骼序列的时空动力学，因为3D热图体积已经是动作识别的中级特征。基于这些原则，我们采用了三种流行的3D CNN：C3D、SlowOnly和X3D到基于骨架的动作识别。

RGBPose-Conv3D 为了展示PoseConv3D的互操作性，我们提出了RGBPose-Conv3D用于人类骨骼和RGB帧的早期融合。这是一个双流3D-CNN，有两条通道，分别处理RGB模式和姿势模式。虽然RGBPose-Conv3D的详细实例化包含在第C.2节中，但RGBPose-Conv3D的体系结构通常遵循以下几个原则：（1）由于两种模式的不同特点，这两种途径是不对称的，与RGB路径相比，pose路径具有更小的通道宽度、更小的深度以及更小的输入空间分辨率。（2）受SlowFast的启发，两条路径之间增加了双向横向连接，以促进两种模式之间的早期特征融合。为了避免过度拟合，RGBPose-Conv3D针对每个通路分别使用两个单独的交叉熵损失进行训练。在实验中，我们发现，通过横向连接实现的早期特征融合，与仅后期融合相比，能够带来一致的改善

4. Experiments

4.1. Dataset Preparation

我们在实验中使用了六个数据集：FineGYM【49】、NTURGB+D【38、48】、Kinetics400【6、71】、UCF101【57】、HMDB51【29】和排球【23】。除非另有规定，否则我们使用自顶向下的方法进行姿势提取：
使用ResNet50主干，检测器的RCNN速度更快，姿态估计器是在COCO关键点上预先训练的HRNet。对于除FineGYM以外的所有数据集，2D姿势是通过直接将自上而下姿势估计器应用于RGB输入来获得的。我们报告了FineGYM的平均Top-1准确度和其他数据集的Top-1准确度。我们在实验中采用了在MMAction2[11]中实现的3D ConvNets。

4.2. Good properties of PoseConv3D

为了详细说明图网络上三维卷积网络的良好特性，我们将PoseSlowOnly与MS-G3D进行了比较，MS-G3D是一种基于GCN的多维方法。两个模型采用完全相同的输入（GCN的坐标三元组，PoseConv3D的坐标三元组生成的热图）。

Performance & Efficiency 在poseconov3d和GCN的性能比较中，我们采用了poseconov3d的输入形状48 x 56 x 56。表3显示，在这种配置下，PoseConv3D在参数数量和触发器数量上都比GCN对应的少。虽然参数更少，但PoseConv3D在不同的数据集上实现了有竞争力的性能。1-clip测试结果优于或可与最先进的GCN相媲美，但需要的计算量要少得多。通过10个剪辑测试，PoseConv3D始终优于最先进的GCN。只有PoseConv3D可以利用多视图测试，因为它对整个热图卷进行二次采样以形成每个输入。此外，PoseConv3D对不同的数据集使用相同的体系结构和超参数，而GCN依赖于对不同数据集的体系结构和超参数进行大量调整。

Robustness 为了测试这两个模型的稳健性，我们可以在输入中去掉一部分关键点，看看这种扰动会如何影响最终的精度。由于肢体关键点3对体操来说比躯干或面部关键点更为关键，我们通过在每一帧中以概率p随机删除一个肢体关键点来测试这两个模型。在表4中，我们看到PoseConv3D对输入扰动具有高度鲁棒性：在每帧中删除一个肢体关键点会导致平均Top1中度下降（低于1%），而对于GCN，则为14.3%。有人会争辩说，我们可以用有噪声的输入来训练GCN，类似于退出操作。然而，即使在此设置下，当p=1时，GCN的平均Top1精度仍下降1.4%。此外，通过稳健的培训，还将增加1.1%，在p=0的情况下下降。实验结果表明，poseconov3d在姿态识别的鲁棒性方面明显优于GCN。

Generalization 为了比较GCN和3D-CNN的泛化，我们在FineGYM上设计了一个交叉模型检查。具体来说，我们使用两种模型，即HRNet（HigherQuality，简称HQ）和MobileNet（Lower Quality，LQ）进行姿势估计，并分别在顶部训练两个PoseConv3D。在测试期间，我们将LQ输入输入到使用HQ one训练的模型中，反之亦然。从表5a中，我们可以看出，与GCN相比，使用PoseConv3D进行训练和测试时，使用低质量姿势时，精确度下降较少。同样，我们也可以改变人员框的来源，使用GT框（HQ）或跟踪结果（LQ）进行培训和测试。结果如表5b所示。poseconov3d的性能下降也比GCN小得多。

Scalability GCN的计算会随着视频中人数的增加而线性扩展，从而降低了群体活动识别的效率。我们在排球数据集上进行了一个实验来证明这一点。数据集中的每个视频包含13人和20帧。对于GCN，相应的输入形状将为13 x 20 x 17 x 3，比一个人的输入大13倍。在这种配置下，GCN的参数和触发器数量分别为2.8M和7.2G（13x ）。对于PoseConv3D，我们可以使用一个单独的热图体积（形状为17 x 12 x 56 x 56）来表示所有13个人4。Pose Slownly的基本通道宽度设置为16，导致只有0.52M参数和1.6 GFLOPs。尽管参数和失败次数要小得多，但PoseConv3D在排球验证中达到91.3%的Top-1准确率，比基于GCN的方法高2.1%。

4.3. Multi-Modality Fusion with RGBPoseConv3D

PoseConv3D的3D-CNN架构使得通过一些早期融合策略将姿势与其他形态融合更加灵活。在实践中，我们首先分别训练RGB和姿势模式的两个模型，并使用它们初始化RGBPose-Conv3D。我们将在几个时期内继续对网络进行微调，以训练横向连接。最后的预测是通过对两条路径的预测分数进行后期融合来实现的。RGBPose-Conv3D可以通过早期+晚期融合获得更好的融合结果。

我们首先比较了表6中的单向横向连接和双向横向连接。结果表明，对于RGB和姿态，双向特征融合优于单向特征融合。在早期采用双向特征融合的情况下，采用1片段测试的早期+晚期融合可以优于采用10片段测试的晚期融合。此外，RGBPose-Conv3D也适用于两种模式重要性不同的情况。姿势模式在FineGYM中更为重要，在NTU-60中反之亦然。然而，我们在表7中观察到了早期+晚期融合对这两种方法的性能改进。我们演示了在第C.2节中使用的RGBPose-Conv3D的详细实例化。

4.4. Comparisons with the state of the art

结果展示，表上很清楚了：

4.5. Ablation on Heatmap Processing

5. Conclusion

在这项工作中，我们提出了PoseConv3D：一种基于3D CNN的基于骨架的动作识别方法，该方法以3D热图体积作为输入。PoseConv3D解决了基于GCN的方法在健壮性、互操作性和可扩展性方面的局限性。PoseConv3D以重量轻的3D ConvNets和紧凑的3D热图体积作为输入，在准确性和效率方面都优于基于GCN的方法。基于poseconov3d，我们实现了跨多个基准的基于骨架和基于多模式的动作识别的最新技术。

posted @ 2022-06-08 19:29 理想很难阅读(1932) 评论(0) 编辑收藏举报

刷新页面返回顶部

理想很难