快速人体姿态估计：CVPR2019论文阅读

Fast Human Pose Estimation

论文链接：

http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Fast_Human_Pose_Estimation_CVPR_2019_paper.pdf

摘要

现有的人体姿态估计方法通常只考虑如何提高模型的泛化性能，而忽略了显著的效率问题。这导致在实际应用中开发可扩展性和成本效益较差的重型模型。在这项工作中，我们研究了研究不足但实际上是关键的位姿模型效率问题。为此，我们提出了一种新的快速位姿蒸馏（FPD）模型学习策略。具体来说，FPD训练了一种轻量级的位姿神经网络结构，能够以低计算成本快速执行。它是通过有效地传递强教师网络的位姿结构知识来实现的。广泛的评估显示了我们的FPD方法在两个标准基准数据集MPII人体姿势和Leeds运动姿势的模型成本效益方面，优于广泛的最新姿势估计方法。

1. Introduction

在这项研究中，我们考虑的问题是在不降低模型性能的前提下，保持可比精度结果的姿态估计效率。我们观察到，最先进的人体姿势网络（如Hourglass[19]）的基本CNN构建块在建立小型网络时并不具有成本效益，因为每层有大量的频道，而且更难训练。为了克服这些障碍，我们设计了一种轻量级的Hourglass网络，并提出了一种更有效的小姿态网络知识提取训练方法[13]。我们称之为快速位姿蒸馏法。

与目前性能最好的替代姿态方法[32,10]相比，本文提出的FPD方法能够在达到相同人体姿态预测性能的同时，以更小的模型尺寸实现更快、更具成本效益的模型推理。我们的贡献总结如下：

（i）我们研究了未充分研究的人体姿势模型效率问题，与现有的尝试相反，现有的尝试主要集中在提高精度性能上，但在部署时要付出较高的模型推理成本。这是将现有的深姿态估计方法推广到实际应用中需要解决的关键问题。

（2）提出了一种快速位姿蒸馏（FPD）模型训练方法，能够更有效地训练极小的人体位姿CNN网络。这是基于一种知识提炼的思想，这种思想已成功地用于诱导对象图像分类深层模型。特别地，我们推导出一个姿势知识蒸馏学习目标，将潜在知识从预先训练的大教师模型转移到一个小目标姿势模型（将在测试时部署）。这样做的目的是在计算预算非常有限的情况下，仅使用类似的强方案所需成本的一小部分（不到20%）来追求最佳的模型性能。

（3）我们设计了一个轻量Hourglass网络，能够构建更具成本效益的姿态估计CNN模型，同时保持足够的学习能力，以获得令人满意的准确率。这是通过广泛检查现有最先进的pose CNN建筑设计的冗余度来实现的。

在评估中，我们进行了广泛的实证比较，以验证在两个常用基准数据集上平衡模型推理效率和预测性能时，所提出的FPD方法相对于各种最新人类姿势估计方法的有效性和优越性，MPII人体姿势[1]和利兹运动姿势[15]。

2. Related Work

与以往的方法相比，本文在保持模型性能的前提下，系统地研究了姿态估计的效率问题，使得得到的模型在实际应用场景中更具实用性和可靠性。

过去的研究工作都是在传递类别层次的判别知识的基础上进行的，而我们的方法传递了更丰富的密集联合置信图的结构信息。一个更相似的工作是最新的基于无线电信号的位姿模型，它也采用了知识蒸馏的思想[38]。然而，这种方法的目标是使用无线传感器来解决遮挡问题，而不是我们在这里讨论的模型效率问题。

3. Fast Human Pose Estimation

人体姿态估计的目的是预测给定图像中人体关节的空间坐标。现有的位姿方法在很大程度上依赖于大深度神经网络来最大化模型性能，而忽略了推理效率。我们通过建立轻量级CNN架构并提出下面详细描述的有效模型学习策略来解决这一限制，以获得更高的可伸缩性。

虽然部署运行成本低、速度快的小姿态网络很有吸引力，但从经验上讲，对它们进行训练并不容易，尽管理论上浅薄的网络有类似的表示能力，以近似的目标函数，由较深的同行学习[3，26]。通过知识蒸馏策略，在目标图像分类中也出现了类似的问题，即让目标小网络模拟更大教师模型的预测[13]。然而，目前还不清楚这种类似的方法在处理密集像素空间中的结构化人体姿势估计方面的效果如何。为了回答这个问题，我们提出了一种位姿结构知识提取方法。

模型训练管道我们采用知识提炼的通用模型训练策略：

1. 我们首先训练一个大的教师姿势模型。在我们的实验中，由于原始沙漏模型[19]设计简洁，模型训练容易，因此我们默认选择它。其他更强大的模型可以不受任何限制地考虑。

2. 然后，我们在教师模式所学知识的帮助下，培养目标学生模式。知识的升华就发生在这一步。学生模型的结构如表1所示。

整个培训过程的概述如图1所示。提取知识的关键是设计一个合适的模拟损失函数，能够有效地提取和传递教师知识到学生模型的训练中。以往的蒸馏函数是针对对象分类背景下的单标号软最大交叉熵损失而设计的，不适合在二维图像空间中传递结构化的位姿知识。

为什么提出的位姿蒸馏损失函数可能有助于训练一个更通用的目标模型，而不是只训练标签数据？在姿势估计的背景下，许多原因可以解释这一点。

1. 由于在手动注释过程中很难定位真实位置，因此身体关节标签很可能是错误的。在这种情况下，教师模型可以通过统计学习和推理来减少一些错误，从而减少错误标记的培训样本的误导效应（图3（A）行）。

2. 考虑到困难的训练案例，比如背景混乱/杂乱和随机遮挡情况，教师预测可以通过用模型推理解释这些硬样本来提供软化的学习任务（图3（B）行）。

3. 教师模型可以提供比原始注释更完整的联合标签，因此不仅提供额外的更精确的监督，而且还可以减轻丢失联合标签的误导（图3（C）行）。

4. 与调整教师的预测相比，学习匹配基本的真实性验证图可能更难。这是因为教师模型为每个训练样本散布了一些难以处理或易于处理的推理不确定性。

5. 另一方面，教师信心图将预先从整个培训数据集中学习到的抽象知识进行编码，这可能有助于在知识提炼过程中学习每个单独的培训样本。

总之，所提出的模型能够处理错误姿势的关节注释，例如，当训练有素的教师预测的关节比手动错误和缺失的标签更准确时。由于地面真值标签和教师模型的联合使用，我们的模型能够容忍任何一个错误，但不能容忍共同发生的错误。这减轻了训练数据中标签错误的危害，而现有的方法往往盲目地信任所有给定的标签。

4. Experiments

通过与现有的基于mpi和LSP的人体姿态估计深度方法的比较，对本文提出的FPD方法进行了评价。

MPII表2的结果将最新方法的PCKh@0.5精度结果与MPII测试数据集上建议的FPD进行了比较。我们清楚地看到，所提出的FPD模型是非常有效和紧凑的，因此实现了更便宜的部署成本。重要的是，在不明显损害模型泛化能力的情况下获得了这一优势，例如达到91.1%。具体来说，与表现最好的[20]相比，FPD模型只需要14.3%（9/63）的计算成本，但在平均PCKh精度方面获得96.4%（63.5/65.9）的性能。这就产生了6.7%×（96.4/14.3）的成本效益优势。

与最有效的替代竞争对手[24]相比，我们的模型更有效2.9×（26/9），同时获得4.8%（91.1-86.3）的平均PCKh增益。这些证据清楚地表明了我们的方法相对于其他替代方法的成本效益优势。在姿态估计方面，0.8%的改善表明，在复杂背景下，具有不同姿态的挑战性MPII获得了显著的增益。这一提振幅度大于其他最新涨幅，例如91.2%[21]的涨幅为+0.3%，而90.9%[19]；91.5%[23]的涨幅为+0.3%。更具体地说，给定所有163814个测试关节，每个0.1%的增益意味着校正163个关节。

LSP表3中的结果将我们的FPD模型和现有方法的PCK@0.2速率与LSP测试数据中报告的最高性能进行了比较。与MPII相比，深度学习模型对该基准的评估较少，部分原因是训练数据的规模较小。总的来说，我们观察到了类似的比较。例如，我们的FPD比最具竞争力的备选方案[24]运行更为高效，并且除了在所有比较方法中获得最佳姿势预测准确率外，还消耗更少的训练能量。

定性检查提供视觉测试，图2显示了LSP和MPII上的定性姿势估计评估。实验结果表明，在背景杂波、人体姿态和观察条件不同的情况下，这种小的FPD模型仍然可以在任意的野生图像中实现可靠、鲁棒的姿态估计。

5. Conclusion

本文提出了一种新的快速位姿蒸馏（FPD）学习策略。与大多数现有的人体姿态估计方法相比，FPD旨在解决研究不足且实际意义重大的模型成本效益质量问题，以便将人体姿态估计模型扩展到实际的大型部署中。通过开发轻量级人体姿态CNN体系结构，设计一种有效的从大型教师模型到轻量级学生模型的姿态结构知识提取方法，实现了这一目标。与现有的网络参数二值化等模型压缩技术相比，该方法在不影响精度和性能的前提下，实现了高效的人体姿态模型。我们对两个人体姿势基准数据集进行了广泛的比较评估。结果表明，我们的FPD方法与广谱的最新替代方法相比具有优越性。此外，我们还对模型组分进行了一系列烧蚀研究，以提供关于模型成本效益增益的详细分析和见解。