[Paper Reading] One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

link
时间:CVPR2023
机构:粤港澳大湾区数字经济研究院(IDEA) && 清华大学深圳国际研究生院

TL;DR

使用一个纯Transformer结构模型(名为OSX)直接预测Body/Hand/Face的参数,避免了之前各模型分开预测后融合复杂的问题。

Method

Component-aware Encoder

将初始化的Body Tokens与Vit抽取的image feature sequence整体作为input sequence,取过多层Transformer Encoder预测sequence,其中body token的成分增加regression head用来预测身体参数,其中image feature的成分Tf 作为全局特征输入给Component-aware Decoder。

Component-aware Decoder

将Global feature Tf reshape回spacial维度,并Deconv出多尺度feature Thr,利用Tf预测出hand_box与face_box,使用ROI Align在多尺度feature上分别crop出hand与face特征。
Keypoint-guided deformable attention decoder:input query是由[reference keypoint feature, pose positional embedding, and learnable embeddings]三部分累加而成,其中reference keypoints是由Tf 特征预测出来的初始值。
Decoder中的cross attention是一个deformable的版本,让query提取特征图中keypoints附近的特征(我的理解是避免全局范围都要query计算量太大)。

Loss

smplx部分Loss包括身体、手、脸的参数Loss,L_{kpts3D}文中没有详细说从哪里预测的。

Code

https://github.com/IDEA-Research/OSX

Experiment


Ablation

总结与发散

相关链接

引用的第三方的链接

资料查询

折叠Title FromChatGPT(提示词:XXX)
posted @   fariver  阅读(39)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示