ai数字人相关研究

目标：

角色头像，口播，语音，文本生成语音：

上传自己的人像图片让人物开口说话，可以用文本生成语音（支持中文）也可以上传自己的音频。

上传人物图像和音频就可以合成数字人播报的视频

ps: 有源码的自己部署的，需要有高配置的服务器，尤其是显卡！

在线的工具也没api 直接提供，无法使用！

数字人工具集合说明(让图片动起来)

https://blog.csdn.net/adofsauron/article/details/134717010

https://blog.csdn.net/icemanyandy/article/details/130700987?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-5-130700987-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-5-130700987-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&utm_relevant_index=7

https://www.bilibili.com/video/BV1Nz4y14739/?vd_source=ef19579228de6eb5fe906a0073d7f29d

ai让图片动起来工具

https://baijiahao.baidu.com/s?id=1788406130246638060&wfr=spider&for=pc

微软的（效果非常真实口型也对的上，没有上市）
https://view.inews.qq.com/k/20231202A03KPW00?no-redirect=1&web_channel=wap&openApp=false

did ——在线生成数字人(只需要一张自己的照片，输入文字内容即可)

https://studio.d-id.com/

heygen——HeyGen是一个ai虚拟人,数字人网站,作为一个AIGC网站，用户可以在该平台上使用自带的数字人形象

https://www.heygen.com/

SadTalker ———国内腾讯开源的(显卡要8g起步，30秒视频要十几分钟)

https://github.com/OpenTalker/SadTalker

功能：SadTalker 是一个免费开源的项目，可以上传人物图像和音频就可以合成数字人播报的视频。可以作为插件运行在 Stable Diffusion 的 webUI 、compyUI中，对电脑的要求要高一些，我8G显存生成30秒的视频大约需要十几分钟。

教程：

https://www.bilibili.com/video/BV1Dc411W7V6/

案例：

https://github.com/OpenTalker/SadTalker

@@Linly-Talker ———开源，语音数字人项目——和我们要做的产品非常切合但是对硬件要求太高了

https://github.com/Kedreamix/Linly-Talker/blob/main/README_zh.md

https://space.bilibili.com/241286257

@@@数字人解决方案——Wav2lip语音驱动唇部

https://blog.csdn.net/matt45m/article/details/136672543?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-4-136672543-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-4-136672543-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&utm_relevant_index=6

@@@MakeItTalk - 让你的程序开口说话

https://blog.csdn.net/gitblog_00007/article/details/137584867

@@@数字人解决方案——ER-NeRF实时对话数字人

https://blog.csdn.net/matt45m/article/details/134256927?spm=1001.2101.3001.6650.6&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-6-134256927-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-6-134256927-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&utm_relevant_index=8

@@@阿里的EMO ，图像生成数字人视频
https://zhuanlan.zhihu.com/p/670719684

https://humanaigc.github.io/vivid-talk/

@@@AniTalker

https://blog.csdn.net/u012842807/article/details/138751992

https://blog.csdn.net/matt45m/article/details/138812125?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171932035316800197062514%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171932035316800197062514&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-138812125-null-null.142^v100^pc_search_result_base4&utm_term=anitalker&spm=1018.2226.3001.4187

Animatediff——提出了一种将任何定制化文生图模型拓展用于动画生成的框架，可以在保持原有定制化模型画面质量的基础上，生成相应的动画片段。

这个项目分别可以独立部署，也可以在Stable Diffusion对应的WebUI或ComfyUI中运行。

可以结合Prompt Travel生成连续的动画视频。

https://animatediff.github.io/

@@@Edge-TTS 是一个使用微软的 Azure Cognitive Services 实现文本到语音转换（TTS）的 Python 库。它提供了一个简单的 API，允许将文本转换为语音，并支持多种语言和声音。

@@@Google Text-to-Speech (gTTS) 库 ——文本转语音。

Google Text-to-Speech (gTTS) 库，这是一个广泛使用的开源工具，能够将文本转换为自然流畅的音频。通过调用Google的API，该库提供了一种简单的方法来实现高质量的语音合成。

1. 自定义设置 - 可以调整音速、音高和语调，使生成的语音更加个性化。

语音特征提取DeepSpeech

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。这里使用DeepSpeech来对生成的语音进行特征提取，提取出来的语音特征保存为npy文件用于合成视频。

GPT-SoVITS————语音克隆：利用GPT-SoVITS等技术，用户可以上传一分钟的语音样本进行微调，系统将克隆用户的声音，使得数字人能够以用户的声音进行对话。

Runway Gen-2 ——图片生成视频

https://app.runwayml.com/

功能：Gen-2模型可以使用文本生成视频或者使用文本+图片结合，也可以上传图像直接生成视频。总体效果不错，结合Midjourney等可以有概念大片的既视感。目前初始生成4秒视频，最多可以延展到16秒。

Pika Labs——同样可以使用文本生成视频

https://discord.gg/pika

功能：同样可以使用文本生成视频，也可以上传图片作为参考图来生成，目前单个视频只能生成3秒

LeiaPix

网址：https://convert.leiapix.com/

功能：上传图片自动识别景深生成3D动态效果，可以自定义运动轨迹、运动量等多个参数，甚至可以手动绘制深度信息

CrazyTalk ——是全球最受欢迎脸部动画软件,简单使用声音及文本即可生成栩栩如生的表情动画

https://www.reallusion.com/cn/crazytalk/default.html

@@@卡通数字人，抖音教程：—用的 did 生成的
https://www.douyin.com/video/7219996659957255485

@@@AI能让任意一张照片开口唱歌和说话： ——用的通义千问的EMO 模板功能

https://www.bilibili.com/video/BV12C411n7nN/

@@万彩 ai 生成一段口播数字人视频 (自己搭建还是要服务器！！！)

https://www.animiz.cn/blog-8924.html

@代码库形式实现，人脸头像转成gif口播动图@

1 前端（h5）：TensorFlow 的face-api.js人脸识别

https://cloud.tencent.com/developer/article/2243934

https://github.com/justadudewhohacks/face-api.js/tree/master

2 后端(python)： openCV

https://blog.csdn.net/Amzmks/article/details/121742174

———————————

要实现用户上传人脸头像并将其转换为口播GIF动图的功能，确实需要在后端进行处理。这通常涉及到人脸检测、特征点识别、图像处理和GIF生成等步骤。后端处理可以使用Java或Python，两者都有相关的类库可以用来实现这些功能。

Python后端处理

在Python中，你可以使用以下库：

Face Detection and Feature Points: dlib 或 opencv (带Haar级联分类器)

Image Processing: PIL 或 Pillow (用于图像操作和GIF生成)

GIF Generation: imageio 或 Pillow

Java后端处理

在Java中，你可以使用以下库：

Face Detection and Feature Points: OpenCV的Java绑定

Image Processing: Java的javax.imageio包 (用于GIF生成)

实现步骤

用户上传: 用户通过前端上传人脸图片到后端服务器。

人脸检测: 后端接收图片，使用人脸检测库检测人脸区域。

特征点识别: 在检测到的人脸区域上识别特征点（如眼睛、嘴巴等）。

图像处理: 根据特征点位置创建口播动画，这可能涉及到图像的变形或特定区域的移动。

生成GIF: 将处理后的帧图像序列组合成GIF动图。

返回GIF: 将生成的GIF动图返回给前端，或者存储并提供一个URL给用户下载

———————————

当然有其他方案和办法来实现这个功能。

将人脸头像转换为口播GIF动图可以通过多种技术途径实现，具体取决于你的需求和资源。以下是一些可能的方案：

1. **使用现成的API服务**：

有一些第三方API提供人脸动画服务，你可以使用这些服务来简化开发过程。例如，一些服务允许你上传人脸图片，然后根据预设的动画模板生成GIF动图。这通常需要发送网络请求并处理JSON格式的数据。

2. **前端JavaScript实现**：

如果你对性能要求不高，或者不想处理服务器端的复杂逻辑，可以考虑在前端使用JavaScript来实现。有一些JavaScript库，如`face-api.js`（基于TensorFlow.js），可以在浏览器中直接进行人脸检测和动画生成。

3. **深度学习模型**：

如果你有一定的机器学习和深度学习背景，可以使用深度学习模型来生成更自然和定制化的面部动画。这通常涉及到训练一个模型来预测不同面部表情的关键点位置，然后使用这些关键点来驱动面部动画。

4. **使用视频转换服务**：

另一个方案是先将人脸头像转换为视频，然后再将视频转换为GIF。有一些API和服务可以自动完成这个过程，你可以根据需要定制视频中的动画效果。

5. **自定义动画引擎**：

如果你对动画效果有非常特定的需求，可以考虑开发一个自定义的动画引擎。这涉及到编写复杂的图像处理算法，可以根据人脸特征点来生成动画。

6. **混合实现**：

你也可以选择一个混合方案，例如，使用API服务来生成基本的动画，然后使用自定义代码来进一步编辑和优化动画效果。

选择哪种方案取决于你的项目需求、预算、时间限制以及技术能力。如果你是初学者或者对图像处理和机器学习不太熟悉，使用现成的API服务可能是最简单快捷的方法。如果你需要高度定制化的解决方案，那么开发一个自定义的后端服务可能是必要的。

https://blog.csdn.net/zhangbijun1230/article/details/86935655

———————————————————

posted @ 2025-01-09 16:24 JavAndroidJSql 阅读(193) 评论(0) 收藏举报

刷新页面返回顶部

工作学习生活思考总结

ai数字人相关研究

公告