git : https://github.com/OpenTalker/SadTalker
使用教程 (完成 前2步即可, 然后点击 webui.bat 启动即可)
SadTalker上手门槛低,对新手相当友好,按照我的步骤一步步进行将确保你能够正常玩转这个项目。
一、环境准备 (有python 环境可以不装)
1、安装 Anaconda https://www.anaconda.com/download-success
2、安装NVIDIA cuda-toolkit
项目基于 PyTorch,如果你的电脑使用了英伟达的显卡,那么建议你安装cuda-toolkit,以便充分发挥显卡进行机器训练的优势。非常不建议直接用CPU,速度会非常慢。
进入官网 cuda-toolkit,根据显卡的cuda版本号,选择对应版本的toolkit下载,然后按照提示进行安装即可,安装目录可自定义。
显卡cuda版本号可通过 nvidia-smi
命令查看。
下载路径:
最新版本:https://developer.nvidia.com/cuda-downloads
历史版本:https://developer.nvidia.com/cuda-toolkit-archive
3、安装 visual studio c++ 模块
进入官网 visualstudio,选择社区版下载,仅勾选使用C++的桌面开发
,然后安装即可。
二、下载项目及训练模型
1、下载源码
进入项目主页 SadTalker,通过Git将源码clone下来,或者直接点DownloadZip手动下载。
2 、下载gfpgan模型
gfpgan是腾讯开源的人脸复原模型,用于解决如何从低分辨率低质量的真实图像中获得较好的先验知识,复原人脸图像的问题。它利用封装在预训练脸部GAN中的丰富多样的先验信息进行人脸盲修复。这种生成性面部先验(GFP)通过空间特征变换层被纳入到人脸恢复过程中
点击 GFPGANv1.4 即可下载,将下载好的模型放到项目中E:\ProgramData\openAI\SadTalker\gfpgan\weights\下,源码是不包含\gfpgan\weights\这个目录的,可以手动创建下。
3 、下载其它必要模型
进入 Releases 页面,选择最新版本的Assets,所有除源码以外的文件都进行下载。
下载完成后,放到 E:\ProgramData\openAI\SadTalker\checkpoints目录下,此外需要将hub.zip
和BFM_Fitting.zip
分别解压下,其他不用解压。源码不包含\checkpoints这个目录,需要手动创建下。
三、用 Anaconda 将项目跑起来
1、打开 Anaconda Prompt,设置pip源,并切换到项目目录
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip config set install.trusted-host https://pypi.tuna.tsinghua.edu.cn python -m pip install pip -U #升级pip #windows环境下会在 c:/users/用户账号//AppDADA/Raoming/pip/pip.ini文件中写入配置参
2、创建虚拟环境并安装依赖
首次运行需要通过conda create 命令创建运行环境,然后激活环境,然后下载依赖包。
以下命令执行过程中,可能会提示报错,根据报错提示下载相关的依赖即可。
如果是提示缺少dlib,那就非常考虑耐心了。由于dlib的安装需要相当长的时间,建议通过 pip install dlib -vvv 查看详细的安装进度,并且你要确保电脑不会因休眠而断网。
conda create -n sadtalker python=3.8conda activate sadtalkerpip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118conda install ffmpegpip install -r requirements.txt
3、执行 conda info,复制GFPGANv1.4.pth到虚拟环境
根据 active env location
提示,找到虚拟环境的位置。
把源代码压缩包里面的:gfpgan\weights\GFPGANv1.4.pth 剪切到虚拟环境的 Lib\site-packages\gfpgan\weights 目录下
4、运行命令,生成视频
python inference.py --driven_audio E:\temp\sadtalker\input\1.wav --source_image E:\temp\sadtalker\input\1.jpg --result_dir E:\temp\sadtalker\output --still --enhancer gfpgan --full_img_enhancer gfpgan
其中 driven_audio 参数值要替换为 你的语音文件, source_image 参数值要替换为 你的图片, result_dir 参数值要替换为 你的资源输出目录。
这里是最后一步,可能会报错,如果出现 attempting to deserialize object on a cuda device but torch.cuda.is_available() is false.这样的报错。说明你没有正确安装GPU的cuda工具包,请返回安装NVIDIA cuda-toolkit 这一步进行安装,如有必要请升级显卡驱动。如果你确实没有英伟达的显卡,那么可根据报错提示,找到对应位置的源码,修改默认的device为cpu即可。
运行完成后,我们将看见一个栩栩如生的短视频。
转: https://www.syrr.cn/news/43584.html?action=onClick