[Paper Reading] Multiple View Geometry Transformers for 3D Human Pose Estimation

Multiple View Geometry Transformers for 3D Human Pose Estimation

link
时间:CVPR2024
机构:University of Toronto && Southeast University && Microsoft Research Asia

TL;DR

提出一种基于Transformer端到端3D Human Pose Estimation方法MVGFormer,核心模块是geometry与appearance模块。前者是无参可微的,泛化更友好;后者是可学习的,对提高精度更友好。效果SOTA。

Method

Query

Query 𝑸 = (𝑭, 𝑷)两部分构成,其中,appearance项\(F_k ∈ R_{J×L}\),geometry项\(P_k ∈ R_{J×3}\)

Decoder

Appearance Module

输入:多目features、Query
输出:

  • Attention Features:3D Poses投影到多目局部特征进行attention
  • 2D Poses:上一轮3D Poses投影2D pose作为anchor,使用attention features预测residual。两者叠加。
  • Condidence:2D Pose点的置信度

Geometry Module

核心操作就是可微的三角化
输入:Appearance Module的输出
输出:𝑭, 𝑷
下图是在Appearance项上增加一个MLP预测instance的score,从而过滤掉一些低质量的query减少计算量。

Loss

通过距离来匹配GT与Pred之间的Match关系,从而计算2D与3D误差的Loss。

实验代码:https://github.com/XunshanMan/MVGFormer/tree/master
效果可视化:https://github.com/XunshanMan/MVGFormer/blob/master/figures/cmu_demo.gif

Experiment



各种维度的Ablation

总结与发散

1.看效果视频遮挡方面效果还可以(可能是视角跨度比较大)
2.三角化、提取Attention Feature在端侧实际部署可能有问题

资料查询

折叠Title FromChatGPT(提示词:XXX)
posted @ 2024-08-13 21:35  fariver  阅读(22)  评论(0编辑  收藏  举报