[Paper Reading] Multiple View Geometry Transformers for 3D Human Pose Estimation

Multiple View Geometry Transformers for 3D Human Pose Estimation

link
时间：CVPR2024
机构：University of Toronto && Southeast University && Microsoft Research Asia

提出一种基于Transformer端到端3D Human Pose Estimation方法MVGFormer，核心模块是geometry与appearance模块。前者是无参可微的，泛化更友好；后者是可学习的，对提高精度更友好。效果SOTA。

Query 𝑸 = (𝑭, 𝑷)两部分构成，其中，appearance项\(F_k ∈ R_{J×L}\)，geometry项\(P_k ∈ R_{J×3}\)。

输入：多目features、Query
输出：

核心操作就是可微的三角化
输入：Appearance Module的输出
输出：𝑭, 𝑷
下图是在Appearance项上增加一个MLP预测instance的score，从而过滤掉一些低质量的query减少计算量。

通过距离来匹配GT与Pred之间的Match关系，从而计算2D与3D误差的Loss。

各种维度的Ablation

1.看效果视频遮挡方面效果还可以(可能是视角跨度比较大)
2.三角化、提取Attention Feature在端侧实际部署可能有问题

折叠Title

FromChatGPT(提示词：XXX)

posted @ 2024-08-13 21:35 fariver 阅读(22) 评论(0) 编辑收藏举报

刷新页面返回顶部