[Paper Reading] Decoding Surface Touch Typing from Hand-Tracking

Decoding Surface Touch Typing from Hand-Tracking
TL;DR
Method
Q&A
Experiment
- 物理键盘与虚拟键盘对比
- 对比不同Motion Model
效果可视化
总结与发散
相关链接
资料查询

Decoding Surface Touch Typing from Hand-Tracking

link
时间：20.10

主页：https://research.facebook.com/publications/decoding-surface-touch-typing-from-hand-tracking/

TL;DR

一种XR场景下，在任意平面(flat surface)上通过追踪的裸手26DoF序列来打字的方法。方案是使用TCN(时序卷积网络) + 语言模型与beam search来修正结果。实验证明方法输入效率接近与物理键盘(73 WPM, 2.38% UER)。本文仅研究了使用高精Marker获取到的HandTracking结果对应的打字效果，用来研究这种打字方式的上限。

Method

推理流程是：HT Skeleton Sequence -> Text -> Text Decoding(beam search)

HT Skeleton Sequence -> Text

模型结构：TCN网络，时间窗口是46帧(约0.75s)
模型输入：wrist position and rotation along with 3D fingertip positions.
模型输出： T × (K + 1) heat map，其中 + 1是blank表示有时手指未type任意一个按键
模型Loss：CTC Loss

TEXT DECODING

两种方案:
greedy：将所有frames结果拿来，除去blanks
beam search decoding(更优)：每一步都保留B种结果，并加入语言模型的概率分布，最终整体来判断一个单词的概率。

DATA COLLECTION

工装：高精度Marker + TourchPad

The resulting touchpad training dataset consists of samples where we have 1) a sequence of length N of keys that were typed, 2) a sequence of length N of 2D contact events from the touchpad, and 3) a sequence of length T of skeletal hand poses while those keys were typed, recorded at 60Hz.

Q&A

这篇文章中的beam search与contact-based分别指得是什么？

在这篇文章中，"beam search"和"contact-based"是两种不同的文本解码方法，用于将手部追踪数据转换为文本输入。下面分别解释这两个术语：

Beam Search（束搜索）：
Beam search是一种解码算法，通常用于自然语言处理任务，如机器翻译、语音识别和本文中的手势打字。它是一种启发式的图搜索算法，用于从一系列可能的候选中找到最优解。在这篇文章中，beam search用于结合手部运动模型（motion model）和语言模型（language model），以高效地从手部运动中解码文本。具体来说，它会维护一个候选序列的集合（称为beam），并在每个步骤中扩展这些候选，选择最有可能的序列作为最终输出。这种方法可以有效地结合手部运动信息和语言统计信息，以提高解码的准确性。

Contact-Based（基于接触的）：
Contact-based方法是指依赖于物理接触点信息的文本输入方法。在这篇文章的研究中，它被用作对比实验的基线。这种方法通常需要用户在触摸屏幕上的实际接触点来输入文本。在手部追踪的背景下，contact-based方法可能涉及到检测手指与虚拟键盘的接触点，并根据这些接触点的位置来确定按下的键。这种方法可能不如beam search灵活，因为它依赖于精确的接触点检测，而不是手部运动的连续轨迹信息。

文章中提到，相比于contact-based方法，beam search方法能够更准确地解码文本，因为它可以利用手指运动的连续轨迹信息，而不仅仅是接触点。这使得beam search方法在处理手指漂移或模糊接触时更加鲁棒。

Experiment

物理键盘与虚拟键盘对比

整体来看速度略慢一点，精度略高一点，差距不大。
速度：physical keyboards (median: 75 WPM, mean: 74 WPM) as well as on surfaces (median: 69 WPM, mean: 73 WPM).
精度：Participants typed on physical keyboards with a mean UER of 1.72% (median: 1.19%) compared to a mean UER of 2.38% (median: 1.77%) when they typed on flat surfaces with our decoder.

对比不同Motion Model

效果可视化

https://research.facebook.com/publications/decoding-surface-touch-typing-from-hand-tracking/

总结与发散

暂无

资料查询

折叠Title

FromChatGPT(提示词：XXX)

posted @ 2024-10-16 14:43 fariver 阅读(6) 评论(0) 编辑收藏举报

刷新页面返回顶部

fariver