【CVPR 2019】 论文阅读:3D human pose estimation in video with temporal convolutions and semi-supervised training

2019 CVPR的文章,使用时序卷积和半监督训练的3D人体姿态估计

论文链接:https://arxiv.org/abs/1811.11742

github:https://github.com/facebookresearch/VideoPose3D

已经有前辈对这篇文章做过理解:https://www.cnblogs.com/zeroonegame/p/15037269.html

此处不介绍引言和相关工作,具体可参考前辈的阅读笔记,写的已经很好了。本文也只是做一个阅读记录。

摘要

这篇文章主要工作:

(1)使用基于空洞时序卷积的全卷积模型评估视频中的3D姿势

(2)引入了半监督训练方法,作者称为back-projection

 

2. 模型内容

2.1 Temporal dilated convolutional model

时序卷积模型将2D关键点序列作为输入,生成3D姿态估计,其间采用空洞卷积来提取时序信息。

关于空洞卷积,贴一个链接:https://zhuanlan.zhihu.com/p/113285797

上图为网络结构图,输入为(243,34)大小的2D关键点序列,开始为一个不完整的块,将输出通道数设置为1024,后续由四个包含残差结构的块组成,最后一层输出所有帧的的三维姿态预测。

以第一个块为例,绿色部分为卷积层,每个块前后有两个卷积层,前者的卷积核(kernel size)W大小为3,后者的为1。前者的空洞卷积超参数(dilated factor) D = W^B,B的大小取决于当前处在第几个块,如第一个块D=3^1=3,网络中则为3d3,以此类推第四个块为3d81。卷积之后经过归一化,线性函数ReLU和Dropout后输出特征。每一个块输出的特征,类似于ResNet,经过一次slice操作后又加入到下下个块中,防止梯度消失。这边的slice操作是为了匹配前后两个块的张量大小,确保能够进行残差连接。

作者主要采用的是如下图的对称卷积:

为了用于实时场景,实际是不能用到未来帧的,作者也尝试了如下图的因果卷积(causal convolutions,)

2.2 Semi-supervised approach

作者利用现成的2D关键点检测器(2D keypoint detector)和back-projection相结合,将未标注的视频产生的loss加到总loss中,以加强监督学习

 2.2.1 Trajectory model

由于透视投影,屏幕中的2D姿态取决于轨迹(trajectory)和3D姿势,轨迹可以是人体根关节的全局位置,从figure 3可以看出,最后通过译码器投影出的2D姿势,包含了global position和 3D pose两部分信息。

如果没有这个全局位置信息,那么2D姿势的主体会被固定投影在屏幕的中心。因此,这边也对3D轨迹进行了回归,以正确的进行2D反向投影。

 为此,优化了第二个网络,这个网络在相机空间中对gloabl trajectory进行回归,后者将其投影到2D之前加到姿势中。两个网络具有相同的架构,但不共享一套参数,因为作者发现以多任务方式训练时,两者会产生负面影响。

如果人体离相机较远,就会更加难以对起trajectory进行精确回归,因此作者优化了trajectory的加权平均关节位置误差(WMPJPE)损失函数:

 使用相机空间中的真实深度值(y_z)的倒数对每个样本进行加权,对于我们的目的来说,回归远目标的精确trajectory是不必要的,因为相应的2D keypoints往往集中在一个小区域周围,因此对于目标越远的目标,loss权重越低。

 

2.2.3 Bone length L2 loss

作者通过添加一个软约束,对无标签batch中subjects的平均骨长有标签batch的subjects的骨长做近似匹配,发现效果是更好的,即figure 3中计算的Bone length L2 Loss。计算这个loss对自监督学习起到了很重要的作用。

 

2.3 Discuss

该方法仅需要一些相机的内置参数,这些参数基本商业相机都能够提供。该方法不依赖于特定的网络结构,可以应用在任何以2D关键点作为输入的3D姿态检测器中。

在实验中,作者按照本章中描述的架构将2D姿势映射到三维,为了将3D姿势重新投影到2D,作者使用了一个简单的投影层,该投影层考虑到了线性参数(焦距、焦点)和非线性的镜头畸变系数(切向、径向)来实现。这边也提到了在Human3.6M数据集中使用的镜头畸变参数对于姿态估计几乎没有影响,但仍然将其囊括进来,因为是相机真实的一个参数。

3. 实验及结果

 3.1  实验设置

评估使用的数据集:Human3.6M 和 HumanEva-I

Human3.6M中标志了3D姿态的7个子集,从中提取17的关节点,(S1,S5,S6,S7,S8)作为训练集,(S9, S11)作为测试集。

HumanEva-I相对小得多,从三个视角记录同一个对象,作者既通过对每个动作训练不同模型来评估三个动作,也未所有动作训练了一个模型。

 

衡量指标:MPJPE、P-MPJPE、N-MPJPE

3.2 实现细节

 3.2.1 Implementation details for 2D pose estimation

 之前的工作大部分都是在ground-truth bounding boxes提取目标,后使用stacked hourglass detector预测ground-truth bounding boxes中的2D关键点的位置。这篇文章并不依赖于任何特定的2D关键点检测器。作者研究了集中不依赖于ground-truth boxes的2D detectors,使得该实验在真实场景也可用。

除了stacked hourglass detector ,作者研究了包含一个ResNet-101-FPN bone的Mask-R-CNN网络,参考其在Detectron中的实现,以及cascaded pyramid network(CPN) ——FPN表示的扩展,CPN实现需要外部提供边界框(在这一情况下使用Mask R-CNN)

对于Mask R-CNN和CPN,因为关键点在COCO和Human3.6M不同,作者在COCO上进行预训练,后在Huaman3.6M上fine-tune 2D投影的检测器。在消融实验中,作者还实验了直接将3D姿态估计应用于预训练的2D COCO关键点,以估计Human3.6M中的3D joints。

对于Mask R-CNN,作者采用了“stretched 1x”表训练的ResNet-101作为backbone。微调时重新初始化了最后一层的keypoint network,反卷积层,来回归hetmaps来学习一组新的keypoints。使用4个GPU进行步长衰减学习率训练。

CPN使用输入分辨率为384x288的ResNet-50作为backbone,微调时重新初始化GlobalNet和RefineNet的最后一层。训练时采用指数衰减学习率。在微调时保持batch normalization。

 

下图为作者研究的几个2D key joints检测器的效果对比

 

3.2.2 Implementation details for 3D pose estimation

 这部分留个坑

3.3  结果

3.3.1 Temporal dilated convolutional model

下面两张表显示的是B=4blocks,receptive field=243 frames时的结果,可以看到两个指标的效果普遍是比较好的,(+)表示需要额外依赖数据。

MPJPE Metric

 

 P-MPJPE Metric

 

table 2展示了在单帧情况和时序情况下实现3D pose预测的Velocity error,即3D pose sequence的MPJPE(mean per-joint position error)的一阶倒数,这一失序模型将单帧的MPJVE(measure joint velocity errors)平均降低了76%。

可以这么理解,绝位置对误差(Abosolute position errors)是无法衡量预测的平滑性的,需要对其进行求导,一般误差越大,就越不平滑,误差越小,就会越平滑。

table4展示了在HumanEva-I的结果,结果也是很好的,说明可以推广到更小的数据集上。

table 5 对比了与LSTM的复杂度,主要比较参数量、浮点运算量和MPJPE,27f表示使用27个frame预测一个3D pose,类似的,81f表示81 frames预测一个3D pose。

 

 3.3.2 Semi-supervised approach

Figure 5a 显示,随着标记数据量的减少,半监督方法变得更加有效,当标记帧少于5K时,要比以 supervised 为 baseline的效果提升大约9-10.4 mm N-MPJPE

 

 Figure 5b显示了对数据集进行非下采样版本的结果,这种设置方法更加适合这个模型,因为可以充分利用视频中完整的时间信息,即使在感受野为27或者9时,也比baseline效果好上很多。

 

  Figure 5c 更换了2D keypoints detector,发现会影响最终的误差,说明一个好的detector是很重要的,最高可以提高22.6mm MPJPE(1% S1的情况下)

 4. Conclution

本文介绍了一个简单的全卷积模型。用于视频中的3D人体估计。主要贡献在于两个:

(1)该架构通过在2D keypoint trajectory上使用空洞卷积,利用了视频中的时序信息。

(2)使用半监督训练,提高了数据缺少时的效果。该方法使用于未标记视频,且只需要用到相机的一些内部参数。

 

附录部分还有不少内容,作者其实做了很多工作,后续要学习一下代码才能更深入领会。

 

posted @ 2022-02-27 21:57  理想很难  阅读(921)  评论(0编辑  收藏  举报