2024 姿态估计/动作捕捉 开源项目 pose estimate / mocap opensource projects
置顶
排行 | 计划 | |
---|---|---|
身捕 | 3d-human-pose-estimation | https://github.com/yufu-wang/tram |
面捕 | facial-landmark-detection | https://github.com/andresprados/SPIGA |
手捕 | 3d-hand-pose-estimation | https://github.com/geopavlakos/hamer |
困境
- 单目:侧面穿帮 (后微调)
- 多目:相机同步
- 遮挡 && 运动模糊 (需要新架构/训练时引入遮挡数据)
- 前后帧抖动 (时间上下文置信权重+后期曲线优化)
- 脚与地面 (slam环境建模)
单目
- tokenHMR:解决了2024年前,所有使用HMR2估计的侧面穿帮问题
- AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation,解决了遮挡问题
- PhysPT: Physics-aware Pretrained Transformer for Estimating Human Dynamics:引入物理模型
- HaMeR: 手部捕捉
- TRAM: 超越WHAM,可以实现高难度动作。TRAM尝鲜
- WHAC: 首个全身时序人体网格恢复,基于SMPLer-X
从视频中估计3D人体运动的方法已经取得了快速发展,但现有的方法仍存在一些关键局限性。
首先,大多数方法是在摄像机坐标系中估计人体。
其次,以前在全局坐标系中估计人体的工作通常假设地面是平坦的,导致产生脚滑的现象。
第三,最准确的方法依赖于计算成本高昂的优化流程,这限制了它们仅能应用于离线场景。
最后,基于视频的方法的准确性竟然不如单帧方法。我们通过WHAM(世界坐标系下具有准确运动的人体)来解决这些局限性,WHAM能从视频中准确高效地重建3D人体运动。在全局坐标系中。WHAM通过使用动作捕捉数据将2D关键点序列提升到3D,并将此与视频特征结合,整合运动上下文和视觉信息。WHAM利用从SLAM方法中估计的摄像机角速度以及人体运动来估计身体的全球轨迹。我们将此与一种接触感知轨迹细化方法相结合,使WHAM能够在各种条件下捕捉人体运动,如爬楼梯。WHAM在多个野外基准测试中超过了所有现有的3D人体运动恢复方法。
多目
- [XR]
Easymocap: 引入三角测量
生成
- HUMANTOMA: 文字生成动作
2台或1台无人机 计算机视觉:自动跟拍人体姿态,自动进行网格/GS场景建模,2d-ai重绘或实时程序化(半自动)/ai-3d(全自动)生成。 自然语言:根据地图导航/网络搜索引擎,接入LLM语言模型,执行人类的命令→终极目标:虚拟世界/现实世界训练,融入人类社会