[Paper Reading] Sapiens: Foundation for Human Vision Models
名称
link
时间:24.08
机构:Meta RealityLabs
TL;DR
放出一个human-centric视觉任务的fundation model,该模型在3亿样本(Humans-300M)上进行无监督预训练,实验证明在human-centric视觉任务(2d pose估计/深度估计/body-part-seg等)效果相对于没有预训练有明显提升。
Method
Human300M数据集
收集1B数据,使用Human Detector过滤留下高分样本。第一人称视角数据。大多数据图像中为多人样本。
Pretrain
MAE
Pretext-Task上效果
下游任务
使用少量高清数据进行Finetune,每类任务用比较经典的方法,例如 PoseEstimation使用ViTPose。
Q&A
数据集与训练方法是否开源?
有没有证明 linear eval的效果
Experiment
与其它数据预训练对比
不同数据量预训练对于Normal Estimation任务的提升
总结与发散
数据量较少时,预训练还是有比较大作用的。
相关链接
引用的第三方的链接
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律