数据集HumanVid:第一个针对人体图像动画的大规模高质量数据集
2024-07-28 ,由香港中文大学、上海市人工智能实验室共同创建HumanVid, 是一项创新的大规模高质量数据集,专为人体图像动画而设计,它通过结合精心挑选的现实世界视频和合成数据,为视频和电影制作领域带来了突破性的工具。
人类图像动画的任务目的:
在从单个图像生成连贯的人类视频。为了增强可控性,该领域的主流工作经常采用显式的人体骨骼表示。早期的解决方案主要是在 GAN 上开发的,用于图像动画和姿势传输。
最近,扩散模型在图像和视频中取得了显著的成功和高质量的结果,因此引起了人类图像动画的关注合成。
一、目前遇到困难和挑战:
1. 训练数据的不可访问性:
先前的方法依赖于私有数据集进行训练,这阻碍了公平和透明的基准测试 。
2. 忽视相机运动:
作为视频和电影制作中的一个重要组成部分,摄像机视点移动决定了内容动态和观众的整体感觉。虽然许多工作专注于用结构信号引导视频生成模型,但在生成视频时控制相机的姿态/视点却很少受到关注。
二、HumanVid 数据集:
是一个高质量、大规模的数据集,专门为人类图像动画设计。
结合真实世界和合成数据:数据集包括从互联网上收集的 20,000 个无版权的 1080P 分辨率真实世界视频,以及 2,300 个无版权的 3D 头像资产,这增加了数据集的多样性和质量 。
三、数据集构建:
合成视频数据通过一个或多个角色使用不同的摄像机轨迹在各种 3D 场景中移动来渲染。因此,构建合成数据涉及三个关键步骤:角色创建、运动重定向以及 3D 场景和摄像机放置。
1、角色创建:
-
人体角色:使用 SMPL-X 模型和服装来创建类似真人的角色。这些角色的身体形状、皮肤纹理、3D 服装和纹理都是多样化的,以实现高度逼真的人类表示。
-
动漫角色:从 VRoidHub 平台手动选择了2,387个角色,这些角色具有多样化的外观、服装风格和发型。
2、动作重定向:
-
人体角色动作:通过从大规模动作捕捉数据集中采样,将人类动作转移到 SMPL-X 角色上。动作的多样性通过基于运动注释的采样来增强。
-
动漫角色动作:使用自动重定向软件将现有动作转移到动漫角色资产上。动漫角色的服装和头发也被视为身体的一部分,因此它们的运动也由源动作决定。
3、3D 场景和相机布局:
-
3D 场景:使用约100张全景 HDRI 图像或高质量的 3D 场景构建真实感和多样性的 3D 场景背景,涵盖室内和室外环境。
-
相机轨迹设计:与现有数据集不同,该数据集强调了人类中心视频中丰富和多样化的相机轨迹。每个相机轨迹由一系列 6-DoF(六度自由度)的平移和旋转组成。通过精心设计的基于规则的相机运动生成管道,获得了多样化的轨迹。
建立基线模型 CamAnimate:
提出了一个名为 CamAnimate 的基线模型,它考虑了人体和相机运动作为条件,通过在 HumanVid 数据集上的简单基线训练,实现了对人物姿势和相机运动的先进控制,为该领域树立了新的基准 。
HumanVid 数据集不仅提高了视频生成的视觉质量和控制性,还为相机控制的人体图像动画提供了一个公正和透明的评估基准 。此外,这个数据集的公开可用性,将促进未来研究和应用的发展 。
让我们看一下HumanVid数据集应用:
比如我是一个电影制作人,哎呀,你是不知道,我之前在视频制作上遇到的事儿可真不少。比如说,我得拍一段儿古代战场上的打斗戏,光是搭景就得花上个把月,还要找一堆群众演员,更别说那复杂的摄影机轨道和吊臂了。有时候,一个镜头要拍上几十遍,演员都累趴下了,效果还不一定满意。
但现在呢,有了HumanVid这个神奇的数据集。
我可以轻松地控制角色的动作,还有摄影机的运动,就像玩视频游戏那样简单。
比如说,我可以瞬间把摄影机从战场的这一头移到那一头,从高空俯瞰整个战场,或者来个特写捕捉战士的表情。所有的这一切,都不需要我亲自去调整摄像机或者重新布景。
偷偷告诉你,HumanVid数据集还提供了大量的合成数据和精确的相机运动注释,这意味着我可以生成各种复杂场景,比如让角色在虚拟的古代宫殿中行走,或者在战场上策马奔腾,而且这些画面看起来就跟真的一样。
最棒的是,我可以把这些动画直接放到电影里,或者用在游戏的预告片中,甚至做成虚拟现实体验。这不仅大大节省了我的时间和成本,还让我的创意不再受限于现实条件。
哦耶,我感觉自己的制作能力一下子飞跃了好几个档次,真是太给力了!