数字人论文:Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion
老规矩. 直接第三章
3. 端到端网络结构
给一个audio 短窗口, 也就是片段. 我们预测窗口中间时刻的面部表情.
我们把表情看做一个全端点的向量 (后面我们会看这是什么的一种刻画面部)
一旦我们网络训完, 我们回各个时间点同时生成, 并行. 即使不需要过去的帧画面, 依然生成很稳定的画面. (指的是画面不会跳帧严重, 画面连贯).
3.1 网路:
The emotional state is represented as an E-dimensional vector
The articulation network outputs a set of 256+E abstract features that together represent the desired facial pose.
We feed these features to an output network to produce the final 3D positions of 5022 control vertices in our tracking mesh.
我们输出5022个特征向量, 作为人脸面部生成.