[Paper Reading] StegoType: Surface Typing from Egocentric Cameras

StegoType: Surface Typing from Egocentric Cameras

link
时间:24.08
作者与单位:

相关领域:XR text entry, ASR,action recognition
作者相关工作:
Mark Richardson: decoding surface touch typing的一作
Fadi Botros: touch insight的三作

被引次数:1
主页:无

TL;DR

本文提出一种XR场景下虚拟键盘输入的算法,通过利用XR设备26DoF追踪序列及输入文本作为训练数据,配合闭环的数据收集机制,训练出来的算法模型输入速度达到42.4 WPM,错误率UER达到7%。

Data

数据采集设备

  • 两块Sensel压感触控板利用OptiTrack追踪
  • 压感触控板表面贴纸键盘,将纸键盘按键与与压感坐标关联

开环数据收集

用户按照纸键盘输入过程无任何反馈,完全按照他们自我感觉来判断是否输入完成。这类数采训练精度始终不高24.6% -> 18.2 CER(采集40人),会引发两类问题:

  • 溢出错误(Slop errors): 用户想敲击某个键,但实际没有达到对应的物理位置,在touch insight中称为User Error,是需要算法考虑对应的容错机制的。
  • 合规性错误(Compliance errors):用户敲击某个键过程,其它指尖不小心敲到另外的按键;用户不知道敲击错误(比如误读文本,或者误敲击),所以没有及时使用退格删除。

闭环数据收集

主要解决 合规性错误 的问题,用户可实时预览敲击内容,并使用退格键来删除。同时调整压感触控板的力响应阈值,减少误触。

数据容错机制Oracle


Oracle分为on-track与off-track两种模式

  • on-track:会根据用户历史信息提示接下来要输入的字符,并将该字符响应的物理面积放大,增加用户键入该字符的成功率(一定程度上消除了slot errors),如果on-track成功,接下来会继续提示。
  • off-track:如果用户输入了非提示字符,则进入off-track模式,并将backspace的物理面积放大,直到用户删除掉所有Oracle认为错的。

Method

Input Features

  • Pose Feature: 每个指尖点选则3个mesh点(6自由度)
  • Latent Feature: 多视角时序融合之后的特征,后训练MLP从960D降维至128D

Backbone

  • Enformer模型架构组成
  • Head预测每时刻单词概率(包含no key pressed状态)
  • 时序感受野12.3s

Data

606个打字员,26.8W段数据

Loss

LCTC:直观想到的Loss是逐帧的CE Loss,但作者使用CTC Loss。原因:1) GT的tempstamp与观测数据不一定能很好对齐。2) 比较难界定是什么时候是按压的开始,什么时候是按压的结束。
Llatency:将当前时刻的预测结果与前一时刻预测结果的KL散度尽可能对齐,降低延迟。

Li:中继监督的Loss,即中间层就开始监督CTC,后面的Layer用来精修。

Experiment

效果可视化

https://dl.acm.org/doi/10.1145/3654777.3676343
https://www.youtube.com/watch?v=bMjsFz-CdEQ

总结与思考

相关链接

引用的第三方的链接

资料查询

折叠Title FromChatGPT(提示词:XXX)
posted @   fariver  阅读(4)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示