[Paper Reading] Multiple View Geometry Transformers for 3D Human Pose Estimation
Multiple View Geometry Transformers for 3D Human Pose Estimation
link
时间:CVPR2024
机构:University of Toronto && Southeast University && Microsoft Research Asia
TL;DR
提出一种基于Transformer端到端3D Human Pose Estimation方法MVGFormer,核心模块是geometry与appearance模块。前者是无参可微的,泛化更友好;后者是可学习的,对提高精度更友好。效果SOTA。
Method
Query
Query 𝑸 = (𝑭, 𝑷)两部分构成,其中,appearance项,geometry项。
Decoder
Appearance Module
输入:多目features、Query
输出:
- Attention Features:3D Poses投影到多目局部特征进行attention
- 2D Poses:上一轮3D Poses投影2D pose作为anchor,使用attention features预测residual。两者叠加。
- Condidence:2D Pose点的置信度
Geometry Module
核心操作就是可微的三角化
输入:Appearance Module的输出
输出:𝑭, 𝑷
下图是在Appearance项上增加一个MLP预测instance的score,从而过滤掉一些低质量的query减少计算量。
Loss
通过距离来匹配GT与Pred之间的Match关系,从而计算2D与3D误差的Loss。
实验代码:https://github.com/XunshanMan/MVGFormer/tree/master
效果可视化:https://github.com/XunshanMan/MVGFormer/blob/master/figures/cmu_demo.gif
Experiment
各种维度的Ablation
总结与发散
1.看效果视频遮挡方面效果还可以(可能是视角跨度比较大)
2.三角化、提取Attention Feature在端侧实际部署可能有问题
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律