[Paper Reading] HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data
HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data
link
时间:24.03
作者与单位:
主页:
https://mq-zhang1.github.io/HOIDiffusion/
TL;DR
一种使用文本与手物3D结构作为输入,对应生成图像的生成算法。
Method
如上图所示,整个过程分为两阶段。
阶段一
将物体3D模型输入GrabNet中生成抓持物体对应的ManoPose轨迹
阶段二
利用轨迹得到的手物3D模型渲染出segmentation map、skeleton map、norm map输入到Diffusion中,再加上Text信息作为Prompt生成各种图像。
Training
既有3D手物模型、又有实际真实背景手物交互图像的HOI数据集太少,直接Finetune容易过拟合。本文在此基础上,使用ChatGPT生成了在各种背景下的"background buffer"(类似下面的Prompt),再将这些"background buffer"的text信息使用现成的text2image算法生成背景。通过这种方式扩充训练时的纯背景数据量,降低过拟合的可能性。
”A hand is grasping a bowl in [background]”
Code && Implementation
The entire training process costs approximately 12 hours on eight A100 GPUs.
Experiment
10min, 效果怎么样?哪些分析实验有启发意义?
Q:表2中PCK的含义?
Furthermore, to evaluate the reinference accuracy, we estimate the MANO parameters of hands in images through a widely used single-view hand pose estimator [48], from which we derive the predicted hand joint positions. The percentage of correct keypoints(PCK) is used to measure the accuracy of predicted keypoints representing the hand poses in our data.
效果可视化
总结与发散
从合成效果来看,保真度还不错,可用来扩充数据丰富度