三维人脸建模和驱动技术,让数字人快速“活”起来
摘要:本文剖析MetaStudio中数字人制作管线背后的一些关键技术,让开发者快速了解当前平台提供的核心能力。
本文分享自华为云社区《三维人脸建模和驱动技术,让数字人快速“活”起来》,作者: 华为云社区精选 。
虚拟数字人一直是业界的热点研究问题,广泛应用在营销、直播、AR、VR等场景中。而传统的数字人制作流程非常依赖于美术人员,制作周期长、成本高、生产效率低。本次分享主要介绍华为云数字内容生产线MetaStudio中的数字人制作管线背后的一些关键技术,利用计算机视觉和图形学等技术,来提升数字人模型制作和动画制作的效率,具体包括高精度三维人脸重建、个性化人脸自动绑定、实时面部表情捕捉等技术,最后介绍一下基于隐式表示的数字人建模和驱动相关前沿技术和应用前景。
本文将剖析MetaStudio中数字人制作管线背后的一些关键技术,让开发者快速了解当前平台提供的核心能力。
什么是数字人
美国作家尼尔·斯蒂芬森在1992年出版的科幻小说《雪崩》中创造了两个概念:元宇宙(Metaverse)和虚拟分身(Avatar)。“虚拟分身”在中国发展至今拥有更广泛的称呼“虚拟数字人”,被视为未来人们进入“元宇宙”的入口。
数字人的特征:
拥有人的外观,具有特定的相貌、性别和性格等人物特性
拥有人的行为,具有用语言、面部表情和肢体动作表达的能力
拥有人的思想,具有识别外界环境、并能与人交流互动的能力
数字人广泛应用在影视制作、虚拟直播、增强现实AR、虚拟现实VR、虚拟讲解、消费级应用、视频编辑等领域。
传统高精度数字人制作流程包括:角色建模和材质贴图制作、骨骼绑定和表情基制作、驱动(手K/面捕/动捕)、渲染等步骤。然而却有着无法避免的缺点:强依赖美术人员、周期长、成本高、缺少制作标准、动画制作复杂。我们希望基于计算机图形学和计算机视觉技术,提升制作效率,降低制作成本。
什么是华为云数字内容生产线MetaStudio:
华为云数字内容生产线 MetaStudio,连接开发者体系、资产体系和应用体系,将资产和算法能力沉淀在平台上,面向各类伙伴提供一系列数字人的底层服务能力,让伙伴能更方便,更快捷的造人、用人。基于MetaStudio的多种类的建模服务,多种类型的驱动服务,以及云端渲染能力,开发者伙伴可以做出面向千行百业的各类型应用,及多种多样的数字内容。
MetaStudio为降低数字人制作门槛,提供了几个不同的方案,包括单照片风格化数字人和多照片写实数字人建模。
对于风格化数字人,是基于用户输入的照片,进行面部的特征点识别,并针对基础模型进行几何形变。另外基于人脸不同部位的特征点,会匹配基础模型的不同位置,如头发,眉毛等区域,进行不同的处理。如脸型的特征识别后,会对基础模型进行几何形变。对于素材部分,如眉毛,头发等,基于特征完成素材的匹配选择,并将形变网格与素材进行组合,完成最终的风格化数字人模型创建。
超写实数字人建模服务是提供一套基于多照片的输入完成写实数字人建模,先基于多照片输入构建稠密点云,将点云转为基础头部网格,并基于系统内置的基础模型对原始网格进行重拓扑,补齐空洞,去除噪点。基于交叉偏振消除反光,输出皮肤颜色贴图,平行偏振增强高光,输出高光/粗糙度贴图,多视角渐变梯度照明,输出法线贴图;同时配合系统内置了大量写实材质复用。
视频动捕技术是指从视频中估计人体三维姿态,但是肢体遮挡、体型、衣着、肤色、背景、光照等因素进一步增加了该问题的复杂性。利用三维人体关键点识别,基于深度学习网络回归,并通过IK反算,时域约束,后处理滤波等手段来改善单帧图像预测引入的动作不连续和抖动问题,实现高精度视频动作捕捉和表情捕捉。
7个轻量级人脸几何和材质采集的算法流程
计算机图形学是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学,主要研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。
搭建轻量级人脸采集设备,快速采集人脸的几何模型和材质贴图,加速静态人脸资产制作;通过拍摄多个视角图像,基于多视图几何算法,求解人脸的几何信息;通过模拟不同的光源方向和视角方向,求解人脸皮肤的材质信息;通过硬件进行光源和相机的同步,同步误差小于5ms,全部采集时间约100ms;
算法流程包括:
- 多视图几何重建:通过多张有一定视角重叠的RGB照片,来恢复出场景的几何结构信息;MVS算法流程:特征提取、特征匹配、稀疏重建(Structure From Motion)、深度图估计、稠密重建。
- 三维人脸关键点检测:通过多视图几何,从多个视角的二维人脸关键点得到三维人脸关键点坐标;对于耳朵关键点,基于Faster-RCNN 进行耳朵区域检测,利用主动外观模型来拟合耳朵关键点;
- 非刚性配准算法:将标准网格模板模型进行形变,使得模板模型和目标模型进行对齐;
- 基于多视图的镜面反射分离:利用多视图信息进行加权融合,得到人脸面部漫反射分量和镜面反射分量;
- 光度立体视觉:通过采集物体不同光照方向下的图像(三张以上),重建出物体表面的法向量和反射率基于该算法,利用采集得到的不同光照条件下的人脸图像,求解出各个视角下人脸的漫反射率、镜面反射法线和镜面反射率。
- 多视图纹理映射:已知相机位姿,将各个视角下得到的材质信息融合到同一张纹理贴图中;
- 动态人脸重建:在静态人脸重建的基础上,加上时间维度,每帧都是一个同拓扑的三维模型。动态人脸数据的作用是可以还原演员本身的表演,同时基于深度学习的人脸应用需要大量高精度动态人脸数据,而传统采集方案成本高,且需要大量手工交互;算法流程主要包含了非刚性配准、参数化模型约束和光流约束。
从静态到表情,教你三维人脸自动绑定方法
当你制作了静态人脸模型,如何让角色生成表情动画,即脸部如何动起来?
面部动作编码系统(FACS)是一种基于解剖学结构的系统,用于描述面部的肌肉运动。通过对肌肉运动进行编码,来了解面部运动的方式和原因,是一种可靠的面部运动和表情编码分析技术。基于面部动作编码系统原理,可以实现表情基动画。
那么如何去制作关键表情?艺术家通过maya等软件,使用绑定的脸部或者使用“形变编辑器” 和雕刻工具来创建表情,非常耗时!
如果给定角色的中性表情(或一些极端夸张表情),能否通过自动化算法生成该角色的表情基?
给定一个静态人脸几何,自动生成一组表情基,支持不同风格、不同个数的表情基模板。这中间的核心思想就是将一组表情基模板的变形,迁移到目标人脸模型上,利用形变梯度用来刻画形变迁移过程中每个面片的相对运动。
表情基自动绑定方法,可基于Deformation Transfer算法生成表情基初值,再进行迭代优化。如下:1)固定表情基,求解夸张表情下的表情基系数;2)固定系数,优化表情基。
看隐式表示如何轻松搞定数字人建模
传统数字人制作流程复杂,涉及数据扫描、模型清理和制作、模型绑定、模型驱动、物理动画、高品质渲染等步骤,制作周期长,成本高。
而基于神经辐射场等隐式表示,重建结果包含了头发、眼球、牙齿等部分,无需复杂的重建和绑定;生成速度快,制作成本低,数分钟就能得到一个可驱动的高保真数字形象;支持语音驱动、视频驱动等多种驱动方式。
最后
华为云数字内容生产线MetaStudio,依托图形引擎和空间引擎两大媒体引擎,提供3D模型制作、资产管理、内容编辑、物理仿真、云渲染5大平台能力,帮助伙伴和开发者快速构建高质量模型,用于虚拟直播、虚拟视频内容制作等适用于教育课件、电商带货、社交文娱等场景。