[Paper Reading] Sapiens: Foundation for Human Vision Models

名称

link
时间:24.08
机构:Meta RealityLabs

TL;DR

放出一个human-centric视觉任务的fundation model,该模型在3亿样本(Humans-300M)上进行无监督预训练,实验证明在human-centric视觉任务(2d pose估计/深度估计/body-part-seg等)效果相对于没有预训练有明显提升。

Method

Human300M数据集

收集1B数据,使用Human Detector过滤留下高分样本。第一人称视角数据。大多数据图像中为多人样本。

Pretrain

MAE

Pretext-Task上效果

下游任务

使用少量高清数据进行Finetune,每类任务用比较经典的方法,例如 PoseEstimation使用ViTPose

Q&A

数据集与训练方法是否开源?
有没有证明 linear eval的效果

Experiment

与其它数据预训练对比

不同数据量预训练对于Normal Estimation任务的提升

总结与发散

数据量较少时,预训练还是有比较大作用的。

相关链接

引用的第三方的链接

资料查询

折叠Title FromChatGPT(提示词:XXX)
posted @ 2024-09-04 18:23  fariver  阅读(39)  评论(0编辑  收藏  举报