2024 姿态估计/动作捕捉 开源项目 pose estimate / mocap opensource projects

置顶

排行 计划
身捕 3d-human-pose-estimation https://github.com/yufu-wang/tram
面捕 facial-landmark-detection https://github.com/andresprados/SPIGA
手捕 3d-hand-pose-estimation https://github.com/geopavlakos/hamer

困境

  • 单目:侧面穿帮 (后微调)
  • 多目:相机同步
  • 遮挡 && 运动模糊 (需要新架构/训练时引入遮挡数据)
  • 前后帧抖动 (时间上下文置信权重+后期曲线优化)
  • 脚与地面 (slam环境建模)

单目

  • tokenHMR:解决了2024年前,所有使用HMR2估计的侧面穿帮问题
  • AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation,解决了遮挡问题
  • PhysPT: Physics-aware Pretrained Transformer for Estimating Human Dynamics:引入物理模型
  • HaMeR: 手部捕捉
  • TRAM: 超越WHAM,可以实现高难度动作。TRAM尝鲜
  • WHAC: 首个全身时序人体网格恢复,基于SMPLer-X

从视频中估计3D人体运动的方法已经取得了快速发展,但现有的方法仍存在一些关键局限性。
首先,大多数方法是在摄像机坐标系中估计人体。
其次,以前在全局坐标系中估计人体的工作通常假设地面是平坦的,导致产生脚滑的现象。
第三,最准确的方法依赖于计算成本高昂的优化流程,这限制了它们仅能应用于离线场景。
最后,基于视频的方法的准确性竟然不如单帧方法。我们通过WHAM(世界坐标系下具有准确运动的人体)来解决这些局限性,WHAM能从视频中准确高效地重建3D人体运动。在全局坐标系中。WHAM通过使用动作捕捉数据将2D关键点序列提升到3D,并将此与视频特征结合,整合运动上下文和视觉信息。WHAM利用从SLAM方法中估计的摄像机角速度以及人体运动来估计身体的全球轨迹。我们将此与一种接触感知轨迹细化方法相结合,使WHAM能够在各种条件下捕捉人体运动,如爬楼梯。WHAM在多个野外基准测试中超过了所有现有的3D人体运动恢复方法。

多目

生成

2台或1台无人机
计算机视觉:自动跟拍人体姿态,自动进行网格/GS场景建模,2d-ai重绘或实时程序化(半自动)/ai-3d(全自动)生成。
自然语言:根据地图导航/网络搜索引擎,接入LLM语言模型,执行人类的命令→终极目标:虚拟世界/现实世界训练,融入人类社会
posted @ 2024-06-14 17:53  Nolca  阅读(183)  评论(0编辑  收藏  举报