[调研] 姿态估计相关论文快速整理

目录

模板

简单回答下面的问题,并给出你是从文章中哪小一节得出的信息:
标题:
链接:

  • 时间:
  • 核心观点:
  • 解决的问题:
  • 未解决的问题:

Vision-Based

Accurate, Robust, and Flexible Real-time Hand Tracking

https://www.cs.toronto.edu/~jtaylor/papers/CHI2015-HandTracking.pdf
​- 时间:2014年(根据参考文献及技术上下文推测)
​- 核心观点:
提出了一种基于单目深度相机的实时手部追踪系统,通过多层判别式重新初始化策略​(生成候选手部姿态分布)与生成式模型拟合优化​(基于“黄金能量函数”的随机优化)相结合,实现了高精度、鲁棒性(快速恢复跟踪失败)和灵活性(支持远距离、移动摄像头及任意视角的追踪)。
​- 解决的问题:
​1.传统方法的局限性:依赖多摄像头、标记物或手套,限制自然交互;仅支持近距离正面场景,无法处理复杂手部姿态或遮挡。
​2.鲁棒性不足:现有系统易因快速运动或遮挡丢失跟踪,恢复能力差。
​3.灵活性不足:无法适应远距离(如控制电视)、移动摄像头(如手机)或非正面视角(如VR头显)的场景。
​- 未解决的问题:
1.多目标交互:仅支持单手追踪,双手交互或手-物体交互时易混淆。
​2.计算开销:依赖GPU计算,难以部署到移动设备。
3.​个性化建模:未考虑用户手部形状差异对精度的影响,需个性化校准。
​4.极端场景:快速运动、严重遮挡或极低分辨率(远距离)下的性能仍需优化。
​5.用户验证:需进一步通过用户研究验证实际任务中的实用性与效率。

Embodied Hands: Modeling and Capturing Hands and Bodies Together

链接:https://arxiv.org/pdf/2201.02610

  • 时间: 2017年 (从文章的出版日期 "November 2017" 得出)
  • 核心观点: 提出了一种新的手部模型 MANO(hand Model with Articulated and Non-rigid defOrmations),该模型能够捕获手部的细节形状和姿态,并与身体模型 SMPL 结合,形成一个完整的身体和手部模型 SMPL+H。通过这种方式,可以更真实地建模和捕捉手部和身体的协调运动 (从文章摘要部分 "We develop a new model of hands called MANO (hand Model with Articulated and Non-rigid defOrmations) and combine it with a parameterized 3D body model (SMPL). This combination enables natural performance capture even under severely noisy measurements." 得出)
  • 解决的问题: 传统方法在建模和捕捉手部和身体时通常将两者分开处理,导致在处理手部和身体的协调运动时存在困难。本文通过将手部模型 MANO 与身体模型 SMPL 结合,解决了这一问题,使得在噪声和缺失数据的情况下,能够更准确地捕捉手部和身体的运动 (从文章引言部分 "We argue that the hands and body together are important for communication and that a complete picture of our actions, emotions, and intentions is not possible without the joint analysis of hands and bodies." 得出)
  • 未解决的问题: 文章中提到了一些可能的改进方向,例如在处理手部与物体的交互时,模型可能需要进一步的改进。此外,尽管 MANO 模型在低维姿态空间中表现良好,但对于一些复杂的、不自然的手部姿势,可能需要更高维的模型来更好地捕捉这些姿势 (从文章结论部分 "However, a low-dimensional space can not model the full space by definition. When subjects use their hands in a natural manner, it explains their poses well, while complex unnatural poses may fall outside this space." 得出)

Stacked Hourglass Networks for Human Pose Estimatioes

链接:https://arxiv.org/pdf/1603.06937

  • 时间: 2016年 (从文章的arXiv编号 "1603.06937" 得出)
  • 核心观点: 提出了一种用于人体姿态估计的堆叠沙漏网络(Stacked Hourglass Networks),通过重复的自底向上和自顶向下的处理以及中间监督来提高网络性能。该网络能够捕获图像中各个尺度的特征,并整合这些特征以更好地理解人体的各个空间关系 (从文章摘要部分 "This work introduces a novel convolutional network architecture for the task of human pose estimation..." 得出)
  • 解决的问题: 传统的人体姿态估计方法在处理遮挡、严重变形以及罕见姿势时存在困难,且对服装和光照等因素导致的外观变化不具有鲁棒性。堆叠沙漏网络通过捕获和整合图像中各个尺度的特征,解决了这些问题,提高了姿态估计的准确性和鲁棒性 (从文章引言部分 "A good pose estimation system must be robust to occlusion and severe deformation, successful on rare and novel poses, and invariant to changes in appearance due to factors like clothing and lighting." 得出)
  • 未解决的问题: 文章中没有明确提到具体的未解决的问题,但提到了一些可能的改进方向,例如进一步优化网络结构以提高性能,以及探索更多的数据增强方法来提高模型的泛化能力 (从文章结论部分 "There still exist difficult cases not handled perfectly by the network, but overall our system shows robust performance to a variety of challenges including heavy occlusion and multiple people in close proximity." 得出)

Hand Pose Estimation via Latent 2.5D Heatmap Regression

链接:https://arxiv.org/pdf/1804.09534

  • 时间:2018年4月25日(arXiv:1804.09534v1 [cs.CV] 25 Apr 2018)
  • 核心观点:提出了一种新的3D手部姿态估计方法,通过从单目RGB图像中估计2.5D手部姿态表示来解决3D手部姿态估计问题。该方法通过隐式学习深度图和热图分布,利用卷积神经网络(CNN)架构实现2.5D热图回归,并能够从2.5D姿态表示中精确重建3D姿态。
  • 解决的问题:解决了从单目RGB图像中估计3D手部姿态的挑战,特别是解决了深度估计的模糊性问题。该方法能够处理严重的遮挡、手部与物体的交互以及野外图像(in-the-wild images),并在多个具有挑战性的数据集上实现了最先进的2D和3D手部姿态估计性能。
  • 未解决的问题:虽然该方法在多个数据集上取得了显著的性能提升,但在一些极端情况下(如严重遮挡和复杂背景)仍可能存在估计误差。此外,该方法假设手部的全局尺度在某些情况下是已知的,如果未知,则需要额外的估计步骤,这可能会影响整体的估计精度。

HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation​ (CVPR 2020)

https://openaccess.thecvf.com/content_CVPR_2020/papers/Doosti_HOPE-Net_A_Graph-Based_Model_for_Hand-Object_Pose_Estimation_CVPR_2020_paper.pdf

  • 时间:2020年(CVPR 2020)
  • 核心观点:HOPE-Net 是一个轻量级的模型,能够实时联合估计手部和物体的 2D 和 3D 姿态。该模型使用两个自适应图卷积神经网络的级联,一个用于估计手部关节和物体角点的 2D 坐标,另一个用于将 2D 坐标转换为 3D 坐标。通过端到端训练整个网络,实现了对 2D 和 3D 坐标估计问题的更高精度。
  • 解决的问题:HOPE-Net 解决了手部和物体姿态估计中的挑战,包括手部和物体的快速运动、遮挡问题以及第一人称(可穿戴)相机视频中的不可预测的相机运动。该模型通过图卷积神经网络显式地建模手部和物体交互的物理和解剖学约束,提高了性能。
  • 未解决的问题:HOPE-Net 在训练时使用了特定的数据集(如 FPHA 和 HO-3D),对于与训练时看到的大小或形状相似的物体,模型表现良好,但可能无法很好地泛化到所有类别的物体形状。例如,对于缺乏紧致 3D 边界框的非凸几何形状的物体,该技术可能会面临挑战。

MediaPipe Hands: On-device Real-time Hand Tracking

链接:https://arxiv.org/pdf/2006.10214

  • 时间: 2020年6月 (从文章的arXiv编号 "2006.10214" 得出)
  • 核心观点: 提出了一种基于单个RGB摄像头的实时手部跟踪解决方案,能够在移动设备上预测手部骨架,用于AR/VR应用。该方案通过MediaPipe框架实现,包含两个模型:手掌检测器和手部标记模型,能够在移动设备上实现实时推理且预测质量高 (从文章摘要部分 "We present a real-time on-device hand tracking solution that predicts a hand skeleton of a human from a single RGB camera for AR/VR applications." 得出)
  • 解决的问题: 传统的手部姿态估计方法通常需要特殊的硬件(如深度传感器)或在移动设备上无法实现实时运行。MediaPipe Hands解决了这些问题,它不需要额外的硬件支持,并且能够在移动设备上实现实时的手部跟踪 (从文章引言部分 "A large portion of previous work requires specialized hardware, e.g. depth sensors... Our main contributions are: • An efficient two-stage hand tracking pipeline that can track multiple hands in real-time on mobile devices." 得出)
  • 未解决的问题: 文章中没有明确提到具体的未解决的问题,但提到了一些可能的改进方向,例如进一步提高模型的准确性和扩展数据集以提高泛化能力 (从文章结论部分 "Beyond the quality improvement, training with a large synthetic dataset leads to less jitter visually across frames. This observation leads us to believe that our real-world dataset can be enlarged for better generalization." 得出)

MEgATrack: Monochrome Egocentric Articulated Hand-Tracking for Virtual Reality

链接:https://scontent-sea1-1.xx.fbcdn.net/v/t39.8562-6/10000000_745887319549092_7485046333907055237_n.pdf?_nc_cat=110&ccb=1-7&_nc_sid=b8d81d&_nc_ohc=BHr0oElyRAQQ7kNvgEegc7O&_nc_oc=AdgZgmZ0SIKV4O9cQPZl0Z4Ng6BfIhEXIjvoV8Z0xAN5AzlFMwp_RrJnrYS4lrhARumIpM8Vg0_BAhC0Bc1JDnYw&_nc_zt=14&_nc_ht=scontent-sea1-1.xx&_nc_gid=AFcVfDzZ9qcLhucu36q_KNb&oh=00_AYDYwO95WGeKCiJewz98_12EafucBV2JLhsJENUukt8vZA&oe=67C70ABE

  • 时间:2020年7月(ACM Trans. Graph., Vol. 39, No. 4, Article 1. Publication date: July 2020.)
  • 核心观点:MEgATrack 是一个用于虚拟现实(VR)的实时手部跟踪系统,使用四个单色摄像头安装在 VR 头显上,通过神经网络架构检测手部并估计手部关键点位置,生成准确且低延迟的 3D 手部运动。
  • 解决的问题:该系统解决了在不同环境和用户中鲁棒地跟踪手部的挑战,支持大工作空间,并在 PC 和移动处理器上实现实时性能。它通过检测和跟踪历史信息的结合,提高了手部姿态估计的时间和空间一致性。
  • 未解决的问题:该系统在处理手部与手部、手部与物体的交互时存在挑战,尤其是在复杂的手部姿态和遮挡情况下。此外,手部尺度校准方法可能在某些场景下不够准确,需要进一步改进。

UmeTrack: Unified multi-view end-to-end hand tracking for VR

链接:https://arxiv.org/pdf/2211.00099

  • 时间:2022年(SA ’22 Conference Papers, December 6–9, 2022, Daegu, Republic of Korea)
  • 核心观点:UmeTrack 提出了一个统一的端到端可微分框架,用于多视角、多帧的手部跟踪,直接预测世界空间中的绝对 3D 手部姿态。该框架通过整合多视角信息和时间信息,实现了对手部姿态的精确估计,并在虚拟现实(VR)应用中表现出色。
  • 解决的问题:UmeTrack 解决了现有手部跟踪方法在处理多视角数据和时间信息时的局限性,能够直接预测绝对 3D 手部姿态,而不需要额外的根姿态恢复阶段。此外,该框架还通过端到端的可微分性,优化了手部跟踪的精度和用户体验,包括减少抖动和提高捏合检测的准确性。
  • 未解决的问题:尽管 UmeTrack 在多视角和时间信息的整合上取得了进展,但在处理手部与手部的交互时仍存在挑战。此外,与多阶段方法相比,UmeTrack 在精确的定位能力上仍有提升空间,这可能是由于直接姿态回归方法的局限性。未来的工作可能需要进一步改进模型架构,以提高手部跟踪的精度和鲁棒性。

Occlusion-aware Hand Pose Estimation Using Hierarchical Mixture Density Network

  • 链接:https://openaccess.thecvf.com/content_ECCV_2018/papers/Qi_Ye_Occlusion-aware_Hand_Pose_ECCV_2018_paper.pdf
  • 时间:2019年(arXiv:1909.05168v1 [cs.CV] 11 Sep 2019)
  • 核心观点:本文提出了一种基于层次混合密度网络(Hierarchical Mixture Density Network, HMDN)的遮挡感知手部姿态估计方法,通过建模输入深度图像中手部关节点的条件概率分布,解决了现有方法在处理自遮挡问题时的不足。HMDN利用卷积神经网络(CNN)进行特征学习,并通过两层层次结构建模可见关节和遮挡关节的单值和多值映射,从而提供对手部姿态的完整描述。
  • 解决的问题:现有方法在处理自遮挡问题时,由于其单值映射的特性,无法充分描述遮挡关节的多种可能性,导致估计结果不准确。HMDN通过建模可见关节的单高斯分布和遮挡关节的高斯混合模型(GMM),能够生成可解释且多样化的候选样本,显著提高了手部姿态估计的准确性。
  • 未解决的问题:尽管HMDN在处理自遮挡问题上取得了显著进展,但在实际应用中,手部姿态估计仍然面临一些挑战,例如手部与手部、手部与物体之间的交互遮挡,以及在不同视角和光照条件下的泛化能力。此外,HMDN假设输出是独立的,未充分利用时间连续性,未来可以考虑建模手部结构信息或利用LSTM框架学习时间依赖性。

Robust Low-Light Human Pose Estimation through Illumination-Texture Modulation

  • 链接:https://arxiv.org/pdf/2501.08038
  • 时间:2025年1月14日(arXiv:2501.08038v1 [cs.CV] 14 Jan 2025)
  • 核心观点:本文提出了一种基于频率分解的低光照人体姿态估计框架,通过动态照明校正和低秩去噪来增强低光照条件下的语义和纹理信息,从而提高姿态估计的性能。
  • 解决的问题:现有方法在极端低光照条件下由于依赖像素级增强而无法有效处理语义信息,导致人体姿态估计性能下降。本文的方法通过动态照明校正和低秩去噪,有效地增强了低光照图像中的语义和纹理信息,显著提高了姿态估计的准确性。
  • 未解决的问题:尽管本文的方法在低光照条件下取得了显著的性能提升,但在实际应用中,对于极端低光照条件下的高ISO噪声和低对比度问题,仍有一定的改进空间。此外,对于不同光照条件下的泛化能力,也需要进一步的研究和验证。

Human Pose Estimation in Extremely Low-Light Conditions

链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Lee_Human_Pose_Estimation_in_Extremely_Low-Light_Conditions_CVPR_2023_paper.pdf

  • 时间:2023年(CVPR 2023)
  • 核心观点:本文提出了一种在极低光照条件下进行人体姿态估计的方法,通过构建一个新的数据集 ExLPose,该数据集包含真实低光照图像及其对应的正常光照图像,并利用这些数据集提出了一种新的模型和训练策略,充分利用正常光照图像作为特权信息,学习对光照条件不敏感的表示,从而提高在极低光照条件下的姿态估计性能。
  • 解决的问题:现有方法在极低光照条件下由于图像质量差(如低对比度、高噪声等)导致姿态估计性能显著下降。本文通过构建新的数据集和提出新的模型及训练策略,解决了在极低光照条件下准确标注低光照图像中人体姿态的困难,以及现有方法在处理低光照图像时的性能不足。
  • 未解决的问题:尽管本文的方法在极低光照条件下取得了显著的性能提升,但在实际应用中,对于不同光照条件下的泛化能力仍需进一步验证。此外,对于低光照图像的多样性和复杂性,以及在不同场景下的鲁棒性,仍需更多的研究和改进。

MOHO: Learning Single-view Hand-held Object Reconstruction with Multi-view Occlusion-Aware Supervision

链接:https://arxiv.org/pdf/2310.11696

  • 时间:2023年10月发布。
  • 核心观点:提出MOHO框架,利用多视角遮挡感知监督,从单张图像中重建手持物体,解决手部遮挡和物体自遮挡问题。
  • 解决的问题:
    手部遮挡导致的物体视图不完整。
    单视角下物体自遮挡导致的重建困难。
  • 未解决的问题:
    重建表面可能存在孔洞,纹理可能不一致。
    真实世界数据集规模小,场景、手部和物体多样性有限。
    输入手部姿态预测的鲁棒性有待提高。

A Simple Baseline for Efficient Hand Mesh Reconstruction

https://openaccess.thecvf.com/content/CVPR2024/papers/Zhou_A_Simple_Baseline_for_Efficient_Hand_Mesh_Reconstruction_CVPR_2024_paper.pdf

  • 时间:CVPR 2024
    ​- 核心观点:提出模块化手部网格重建框架,分解为Token生成器​(提取关键点特征)和网格回归器​(上采样生成密集网格),以极低计算量实现高效(70 FPS)高精度(PA-MPJPE 5.5mm)。
    ​- 解决的问题:传统方法复杂低效(如Transformer、图卷积),本方法轻量(仅1.9M参数)且性能超越SOTA。
    ​未解决:极端遮挡、手-物体交互等场景鲁棒性不足,依赖单视角输入,需手动调参。

Cross-Domain 3D Hand Pose Estimation with Dual Modalities

链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Lin_Cross-Domain_3D_Hand_Pose_Estimation_With_Dual_Modalities_CVPR_2023_paper.pdf

  • 时间: CVPR2023 (从文章标题 "Cross-Domain 3D Hand Pose Estimation with Dual Modalities" 下的标注 "CVPR 2023" 得出)
  • 核心观点: 提出了一种跨域半监督手部姿态估计框架,利用双模态数据(RGB 和深度图像)来提高模型在真实世界数据上的泛化能力。通过多模态对比学习和注意力融合监督进行预训练,并在微调阶段引入自蒸馏技术来减少伪标签噪声 (从文章摘要部分得出)
  • 解决的问题: 现有的手部姿态估计方法在使用合成数据训练时,由于域间差距,难以泛化到真实世界数据。本文通过利用多模态合成数据和无标签真实世界数据,解决了这一跨域姿态估计问题 (从文章引言部分 "Hand pose estimation supports a wide range of applications..." 得出)
  • 未解决的问题: 文章中没有明确提到具体的未解决的问题,但提到了未来可能的研究方向,例如进一步探索对比学习和自蒸馏技术在半监督手部姿态估计中的应用,以及研究多模态多视图一致性来处理手部序列 (从文章结论部分 "In the future, we intend to dive deeper into contrastive learning and self-distillation for semi-supervised hand pose estimation and explore multimodal multi-view consistency for hand sequences." 得出)

HandOccNet: Occlusion-Robust 3D Hand Mesh Estimation Network

https://openaccess.thecvf.com/content/CVPR2022/papers/Park_HandOccNet_Occlusion-Robust_3D_Hand_Mesh_Estimation_Network_CVPR_2022_paper.pdf

  • 时间:2022年(CVPR 2022论文)。
  • 核心观点:提出了一种名为HandOccNet的3D手部网格估计网络,通过利用被遮挡区域的信息来增强图像特征,从而提高在严重遮挡情况下的3D手部网格估计性能。
  • 解决的问题:手部在与物体交互时经常被严重遮挡,导致3D手部网格估计具有挑战性。HandOccNet通过特征注入机制,将手部信息注入到被遮挡区域,从而提高了估计的准确性。
  • 未解决的问题:尽管HandOccNet在处理严重遮挡方面取得了显著进展,但在处理复杂背景和多样化的手部姿态时,仍可能存在一定的局限性。此外,对于深度模糊和手部与物体之间的复杂交互,仍需进一步研究和改进。

WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild

  • 链接:https://arxiv.org/pdf/2409.12259v1
  • 时间:2024 年 9 月 18 日
  • 核心观点:WiLoR 提出了一种端到端的在野外 3D 手部定位和重建方法,利用实时全卷积网络准确定位手部并确定左右手,然后通过基于 Transformer 的手部姿态估计模块提升到 3D,采用 refinement 模块提取局部特征以纠正错误对齐的姿态。
  • 解决的问题:WiLoR 解决了在复杂野外环境中手部检测和 3D 姿态估计的挑战,包括多手检测、各种光照、遮挡和运动模糊条件下的手部定位,以及单幅图像的 3D 手部姿态估计问题,实现了高效且高保真的 3D 手部重建,并在不同的基准数据集上取得了最先进的性能,同时提升了图像 3D 姿态估计方法的时间连贯性。
    未解决的问题:在极端遮挡或手部与物体高度交互的情况下,3D 重建的精度和鲁棒性仍有待提高;对于大规模动态场景的手部重建,如何进一步提升模型的泛化能力和实时性也是一个挑战;如何更好地融合多模态数据以增强模型的感知能力和重建质量,仍然是未来需要研究的方向。

EMG-Based

A Spatio-Temporal Graph Convolutional Network for Gesture Recognition from High-Density Electromyography

https://arxiv.org/pdf/2312.00553

  • 时间:2023年12月(arXiv 2312.00553)。
  • 核心观点:提出了一种基于时空图卷积网络(STGCN-GR)的手势识别方法,通过构建肌肉网络图并结合时空卷积模块,有效利用高密度表面肌电图(HD-sEMG)数据的空间拓扑和时间依赖性,提高了手势识别的准确性。
  • 解决的问题:现有方法未能充分利用HD-sEMG数据的空间拓扑和时间依赖性,且在处理多种手势时泛化能力不足。STGCN-GR通过构建肌肉网络图并结合时空卷积模块,解决了这些问题,实现了对65种手势的高精度识别。
  • 未解决的问题:尽管STGCN-GR在手势识别方面取得了显著成果,但在处理更复杂的手势序列和实时性要求更高的应用场景中,仍需进一步优化和改进。

Human-Computer Input via a Wrist-Based sEMG Wearable (Meta Surface EMG)

https://www.meta.com/blog/surface-emg-wrist-white-paper-reality-labs/?srsltid=AfmBOooBPcNJgAyq8HnDZjuQvy2UlNrvtkGUsFNMrORDPme-wwPNhnMO

  • ​时间:2024年(推测为Meta相关技术发布年份,原文未明确)。
  • 核心观点:
    腕带式sEMG通过检测肌肉电信号实现非侵入式手势交互(§摘要)。
    支持移动场景(如AR眼镜)和行动不便用户(§技术细节)。
    ​解决的问题:
    传统输入设备(键盘/触屏)在移动场景中的不便性(§问题陈述)。
    手部障碍用户无法操作精细手势的问题(§实验)。
  • ​未解决的问题:
    复杂手势识别精度不足(§讨论)。
    长期佩戴舒适性及环境干扰(如汗水)的影响(§未来工作)。
    (注:回答基于用户提供的Meta技术白皮书相关内容总结,原文不可访问,部分信息推测。)

NeuroPose

  • 时间:2021年(WWW ’21会议论文)。
  • 核心观点:提出了一种基于EMG可穿戴设备的3D手部姿态跟踪系统(NeuroPose),通过融合解剖学约束和机器学习算法,从嘈杂的EMG数据中提取3D手指运动,实现了高精度的手指姿态跟踪。
  • 解决的问题:现有手指运动跟踪技术在精度、鲁棒性和实时性方面存在不足,尤其是基于视觉的方法容易受到遮挡和光照条件的影响。NeuroPose通过使用EMG传感器,解决了这些问题,实现了在各种场景下对手指运动的精确跟踪。
  • 未解决的问题:论文中未明确提及具体的未解决的问题,但暗示了未来可能的研究方向,如进一步优化算法以适应不同用户和硬件平台,以及探索更广泛的应用场景。

WR-Hand

  • 时间:2021年(论文发表于2021年9月)。
  • 核心观点:提出了一种基于商业臂带设备的轻量级、便携式3D手部姿态追踪系统(WR-Hand),该系统利用EMG(表面肌电图)和陀螺仪传感器数据,通过深度学习模型,实现了对手部14个骨骼点的连续追踪。该系统能够在各种应用场景中提供高精度的手部姿态追踪,包括医疗康复、人机交互和虚拟现实等。
  • 解决的问题:现有手部姿态追踪方法主要依赖于外部设备(如相机和深度传感器),这些方法受到光线条件、视线和计算成本的限制。WR-Hand通过使用商业臂带设备,解决了这些问题,提供了一种便携式、轻量级的手部姿态追踪解决方案。此外,该系统还解决了由于臂带固定位置导致的EMG信号混合问题,以及用户佩戴臂带位置差异导致的追踪精度下降问题。
  • 未解决的问题:论文中未明确提及具体的未解决的问题,但暗示了未来可能的研究方向,如进一步提高追踪精度、降低系统能耗以及扩展应用场景。

Sensing Dynamics

名称:Sensing the Full Dynamics of the Human Hand with a Neural Interface and Deep Learning

  • 时间:2022年(论文发表于2022年)。
  • 核心观点:通过结合高密度表面肌电图(sEMG)和深度学习模型,可以精确地重建人类手部的运动动力学和动力学信息,包括手部的22个自由度(DoF)和手指施加的力量。该方法利用深度学习模型从320个sEMG传感器捕获的数据中连续预测手部的3D运动轨迹、关节角度和力量,实现了与数字相机相当的运动学精度,并提供了额外的力量预测信息。
  • 解决的问题:现有手部运动捕捉技术主要依赖于相机系统,这些系统受限于记录体积、隐私问题以及无法捕捉到与物体交互时的力量信息。该研究通过使用sEMG和深度学习模型,解决了这些问题,实现了对手部运动的全面动态感知,包括运动学和动力学信息。
  • 未解决的问题:论文中未明确提及具体的未解决的问题,但暗示了未来可能的研究方向,如进一步优化模型以提高预测精度,特别是在随机运动任务中的表现,以及探索更广泛的应用场景,如虚拟现实、医疗应用和危险环境中的机器人遥操作。

Multi-Modality Fusion

EchoWrist: Continuous Hand Pose Tracking and Hand-Object Interaction Recognition Using Low-Power Active Acoustic Sensing On a Wristband

https://arxiv.org/pdf/2401.17409

  • 时间:2018年6月3日至5日,美国纽约伍德斯托克。
    出处:文章开头的会议信息部分。
  • 核心观点:EchoWrist是一种低功耗的手环,能够通过主动声学传感技术连续估计3D手部姿势并识别手部与物体的交互。
    出处:摘要部分。
  • 解决的问题:EchoWrist解决了现有手部追踪技术中的一些关键问题,包括:
    需要外部摄像头或高功耗设备。
    无法连续追踪手部姿势。
    无法识别手部与物体的交互。
    用户依赖性强,需要大量训练数据。
    出处:引言部分和相关工作部分。
  • 未解决的问题:尽管EchoWrist在手部姿势追踪和手部与物体交互识别方面表现出色,但仍存在一些未解决的问题,例如:
    在衣物覆盖的情况下,传感单元的性能可能会下降。
    在激烈运动或手持物体时的追踪性能尚未探索。
    手部与物体交互的上下文识别仍需进一步研究。
    出处:讨论部分和局限性与未来工作部分。

Z-Ring: Single-Point Bio-Impedance Sensing for Gesture, Touch, Object and User Recognition

https://dl.acm.org/doi/pdf/10.1145/3544548.3581422

  • 时间:2023年4月23日至28日,德国汉堡举行的CHI会议期间发表。
  • 核心观点:Z-Ring是一种可穿戴戒指,通过单点生物阻抗传感技术,实现手势输入、物体检测、用户识别以及与被动用户界面元素的交互。
  • 解决的问题:Z-Ring通过单点生物阻抗传感,实现了多种交互方式,包括手势识别、物体识别、用户识别和与被动用户界面的交互,且无需对物体进行修改或添加额外设备。
  • 未解决的问题:Z-Ring的当前原型使用的是体积较大的商用矢量网络分析仪(VNA),限制了其在实际场景中的便携性和长期使用。此外,用户独立模型的泛化能力仍需进一步研究和改进。
    这些信息主要来自文章的摘要、引言、相关工作、Z-Ring、背景实验、实现、应用领域、讨论与局限性等部分。

Visual-EMG

Enhanced Freehand Interaction by Combining Vision and EMG-based systems in Mixed Reality Environments

  • 类别:Hand Gesture Recognition
  • 时间: 2018年及之后 (从文章中提到的设备和技术背景,如 Hololens 和 Myo armband,以及引用的文献年份得出)
  • 核心观点: 通过结合基于视觉的系统和EMG传感器,可以增强混合现实环境中的自由手交互,提供更灵活和直观的交互方式 (从文章的 Abstract 和 Introduction 部分得出)
  • 解决的问题: 传统基于视觉的交互系统在手部被遮挡或超出视野时的局限性,以及手势识别的鲁棒性和灵活性不足 (从文章的 Introduction 和 Design and Implementation 部分得出)
  • 未解决的问题: EMG传感器的鲁棒性和用户疲劳问题,以及需要更好的校准过程来提高用户间的一致性 (从文章的 User Study Results 和 Discussion 部分得出)

EV-Action: Electromyography-Vision Multi-Modal Action Dataset

  • 类别:Human Action Recognition
  • 时间:2020年前后(推测自Section VI参考文献)。
  • 核心观点:
    首个融合EMG与视觉模态(RGB/深度/骨架)的动作数据集,EMG可提前捕捉动作意图(Abstract, Sec. I)。
    Vicon系统提供高精度骨架(100fps,39标记点),优于Kinect(Sec. III)。
  • 解决的问题:
    传统数据集模态单一、骨架精度低(如Kinect);
    填补EMG在动作分析中的空白(Sec. I)。
  • 未解决的问题:
    多模态深度融合不足(简单拼接效果有限,需复杂跨模态方法)(Sec. V.G);
    Vicon数据遮挡修复、EMG区分相似动作的能力待优化(Sec. IV, V.B)。

Multimodal Fusion of EMG and Vision for Human Grasp Intent Inference in Prosthetic Hand Control

  • 类别:Human Grasp Intent Inference
  • 时间: 2024年2月27日 (从文章的 arXiv 信息得出:arXiv:2104.03893v5 [cs.RO] 27 Feb 2024)
  • 核心观点: 通过结合基于视觉的系统和EMG传感器,可以增强假肢手控制中的人类抓取意图推断,提高系统的鲁棒性和准确性 (从文章的 Abstract 和 Introduction 部分得出)
  • 解决的问题: 当前基于EMG的假肢手控制方法容易受到运动伪影、肌肉疲劳等因素的影响,而单独依赖视觉数据也容易受到物体遮挡、光照变化等问题的影响。本文通过融合EMG和视觉数据,解决了这些问题,提高了假肢手控制的鲁棒性和准确性 (从文章的 Introduction 和 Methods 部分得出)
  • 未解决的问题: 尽管融合方法提高了系统的鲁棒性和准确性,但EMG传感器的校准过程仍需改进,以减少用户间的一致性差异。此外,对于截肢患者的实际应用,仍需进一步研究如何更好地适应不同用户的肌肉活动模式 (从文章的 Discussion 部分得出)

Multimodal Hand Gesture Recognition Based on the Fusion of Surface Electromyography and Vision

  • 类别:Hand Gesture Recognition
  • 时间:2024年:论文发表,涉及手部姿态识别技术的研究和应用。
  • 核心观点
    多模态融合:结合表面肌电信号(sEMG)和视觉信息,提高手部姿态识别的准确性。
    互补性:sEMG信号和视觉信息互补,解决视觉难以区分的相似手势问题。
    实时性:网络设计注重实时性能,适用于实时手部姿态识别和人机交互。
  • 解决的问题
    单模态局限性:单一视觉或sEMG信号在手部姿态识别中的不足,如环境依赖和噪声干扰。
    提高识别准确性:多模态融合使识别准确率达到96.63%,显著提升识别效果。
    实时人机交互:实现了通过手部姿态实时控制灵巧手和机器人手臂。
  • 未解决的问题
    sEMG信号信噪比:sEMG信号的信噪比需进一步提高,以减少噪声干扰。
    拍摄角度限制:单摄像头拍摄角度有限,未来可通过多摄像头融合解决。

Multimodal Hand Gesture Recognition Based on the Fusion of Surface Electromyography and Vision

链接:https://arxiv.org/pdf/2307.10203

  • 类别:Hand Gesture Recognition
  • 时间:2023年7月13日:论文发表,探讨了结合视觉和肌电图(EMG)的手部追踪技术在扩展现实(XR)音乐乐器中的应用。
  • 核心观点:
    多模态手部追踪:结合视觉和表面肌电图(sEMG)数据,提高手部追踪的准确性,特别是在自遮挡情况下。
    互补性:视觉追踪在手部自遮挡时表现不佳,而sEMG数据可以补充视觉信息,提高追踪的鲁棒性和准确性。
  • 解决的问题
    自遮挡问题:视觉手部追踪在自遮挡情况下容易出现不准确的问题,影响用户体验。
    提高追踪准确性:通过结合sEMG数据和视觉追踪,显著提高了手指关节角度估计的准确性,特别是在自遮挡情况下。
  • 未解决的问题
    个体差异:sEMG信号在不同个体之间存在显著差异,模型需要针对每个用户进行微调。
    硬件限制:研究仅使用了一种类型的XR头显和sEMG臂带,未来需要探索不同硬件配置下的系统性能。
    复杂场景:研究场景相对简单,未来需要在更复杂的遮挡场景中测试系统的性能。

Dataset

Inter-Hand

https://arxiv.org/pdf/2008.09309

  • 时间:2019年10月27日至11月2日,韩国首尔。
    出处:文章开头的会议信息部分。
  • 核心观点:FreiHAND是一个用于从单个RGB图像中无标记捕获手部姿势和形状的大规模多视角手部数据集。该数据集通过迭代的半自动化“人机交互”方法进行注释,包括手部拟合优化,以推断每个样本的3D姿势和形状。FreiHAND数据集的创建旨在提高单视角手部姿势估计的跨数据集泛化能力,并支持从单个RGB图像中预测完整手部形状的网络训练。
    出处:摘要部分和引言部分。
    解决的问题:
    现有手部姿势估计数据集在跨数据集泛化方面表现不佳,即在训练数据集上表现良好,但在其他数据集或实际应用中表现较差。
    缺乏一个能够提供手部姿势和形状注释的大规模真实世界数据集,以支持单视角手部姿势和形状估计的研究。
    出处:引言部分和相关工作部分。
    未解决的问题:
    尽管FreiHAND数据集在跨数据集泛化方面取得了显著进展,但在更复杂的手部姿势和手部与物体交互的情况下,自动拟合的准确性仍有待提高。
    数据集的规模和多样性仍需进一步扩展,以更好地覆盖各种手部姿势和形状,特别是在不同光照、背景和手部遮挡条件下的表现。

FreiHAND

FreiHAND: A Dataset for Markerless Capture of Hand Pose and Shape from Single RGB Images
https://openaccess.thecvf.com/content_ICCV_2019/papers/Zimmermann_FreiHAND_A_Dataset_for_Markerless_Capture_of_Hand_Pose_and_ICCV_2019_paper.pdf
时间:2019年10月27日至11月2日,韩国首尔。
出处:文章开头的会议信息部分。
核心观点:FreiHAND是一个大规模的多视角手部数据集,包含3D手部姿势和形状注释,旨在提高从单个RGB图像中估计3D手部姿势和形状的泛化能力。该数据集通过迭代的半自动化“人机交互”方法进行注释,结合手部拟合优化,以推断每个样本的3D姿势和形状。
出处:摘要部分和引言部分。

  • 解决的问题:
    现有手部姿势估计数据集在跨数据集泛化方面表现不佳,即在训练数据集上表现良好,但在其他数据集或实际应用中表现较差。
    缺乏一个能够提供手部姿势和形状注释的大规模真实世界数据集,以支持单视角手部姿势和形状估计的研究。
    出处:引言部分和相关工作部分。
  • 未解决的问题:
    尽管FreiHAND数据集在跨数据集泛化方面取得了显著进展,但在更复杂的手部姿势和手部与物体交互的情况下,自动拟合的准确性仍有待提高。
    数据集的规模和多样性仍需进一步扩展,以更好地覆盖各种手部姿势和形状,特别是在不同光照、背景和手部遮挡条件下的表现。
    出处:结论部分和未来工作部分。

emg2pose: A Large and Diverse Benchmark for Surface Electromyographic Hand Pose Estimation

链接:https://arxiv.org/pdf/2412.02725

  • 时间:2024年12月2日,arXiv预印本。
    出处:文章开头的会议信息部分。
  • 核心观点:emg2pose 是一个大规模且多样化的基准数据集,用于从表面肌电图(sEMG)估计手部姿势。该数据集包含2kHz、16通道的sEMG和手部姿势标签,来自193名用户、370小时和29个不同阶段的多样化手势,旨在促进sEMG到手部姿势估计的研究。
    出处:摘要部分。
  • 解决的问题:
    现有的sEMG模型需要大量的用户和设备放置数据才能有效泛化,而现有的sEMG数据集缺乏规模和多样性。
    缺乏一个大规模、高质量的sEMG手部姿势数据集,以支持机器学习社区探索复杂的泛化问题。
    出处:引言部分和相关工作部分。
  • 未解决的问题:
    尽管emg2pose数据集在规模和多样性上取得了进展,但在更复杂的用户解剖结构和手部运动类型上的泛化能力仍需进一步提高。
    数据集中的手部姿势标签是通过运动捕捉系统获得的,可能会受到遮挡的影响,导致标签质量下降。
    未来的工作可能需要探索新的序列建模方法,如状态空间和扩散模型,以提高sEMG到手部姿势估计的准确性。
    出处:结论部分和未来工作部分。

Introducing HOT3D An Egocentric Dataset for 3D Hand and Object Tracking.pdf

链接:https://arxiv.org/pdf/2406.09598v1

  • 时间:2024年6月13日,arXiv预印本。
    出处:文章开头的会议信息部分。
  • 核心观点:HOT3D是一个公开的自身体数据集,用于3D手部和物体跟踪。该数据集提供了超过833分钟(超过370万张图像)的多视角RGB/单色图像流,显示19名受试者与33种不同刚性物体的互动,以及手部和物体的高精度地面真实3D姿态和模型注释。HOT3D旨在加速自身体手部-物体交互研究,通过提供大规模、多样化的数据集,支持3D手部和物体跟踪方法的训练和评估。
    出处:摘要部分。
  • 解决的问题:
    现有的手部和物体跟踪数据集缺乏大规模、多样化的自身体图像流,限制了3D手部和物体跟踪方法的训练和评估。
    缺乏高精度的地面真实注释,包括手部和物体的3D姿态和模型,限制了手部-物体交互研究的进展。
    出处:引言部分和相关工作部分。
  • 未解决的问题:
    尽管HOT3D数据集提供了丰富的多视角图像和注释,但在复杂场景下的手部-物体交互跟踪仍面临挑战,特别是在动态抓取和复杂操作中。
    数据集中的手部和物体姿态注释主要基于标记点运动捕捉系统,可能在某些情况下存在误差或不完整。
    未来的工作可能需要进一步扩展数据集,以包括更多样化的场景和更复杂的交互,以提高跟踪方法的泛化能力。
    出处:结论部分和未来工作部分。

HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data

链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Zhang_HOIDiffusion_Generating_Realistic_3D_Hand-Object_Interaction_Data_CVPR_2024_paper.pdf

  • 时间: CVPR2024 (从文章标题 "HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data" 下的标注 "CVPR2024" 得出)
  • 核心观点: HOIDiffusion 是一个用于生成逼真且多样化的 3D 手部-物体交互数据的条件扩散模型,它通过结合 3D 手部-物体几何结构和文本描述来实现更可控和真实的图像合成,并能够将生成的数据用于 6D 物体姿态估计等下游任务 (从文章摘要部分得出)
  • 解决的问题: 3D 手部-物体交互数据稀缺的问题,以及现有生成模型在生成手部-物体交互图像时的不真实和不可控问题 (从文章引言部分 "Understanding how human hands interact with objects has been a long-standing problem..." 得出)
  • 未解决的问题: 文章中没有明确提到具体的未解决的问题,但提到了未来可以进一步探索的方向,例如在更复杂的场景中生成手部-物体交互数据,以及进一步提高生成数据的多样性和真实性 (从文章结论部分 "In this paper, we propose HOIDiffusion with precise appearance and structure control..." 得出)
posted @   fariver  阅读(35)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示