ai数字人相关研究

目标:

角色头像,口播,语音,文本生成语音:

上传自己的人像图片让人物开口说话,可以用文本生成语音(支持中文)也可以上传自己的音频。

上传人物图像和音频就可以合成数字人播报的视频

 

ps:  有源码的自己部署的,需要有高配置的服务器,尤其是显卡!

       在线的工具也没api 直接提供,无法使用!

 

 

数字人工具集合说明(让图片动起来)

https://blog.csdn.net/adofsauron/article/details/134717010

 

https://blog.csdn.net/icemanyandy/article/details/130700987?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-5-130700987-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-5-130700987-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&utm_relevant_index=7

 

https://www.bilibili.com/video/BV1Nz4y14739/?vd_source=ef19579228de6eb5fe906a0073d7f29d

 

 

 

ai让图片动起来工具

https://baijiahao.baidu.com/s?id=1788406130246638060&wfr=spider&for=pc

 

 

 

 

微软的(效果非常真实口型也对的上,没有上市)
https://view.inews.qq.com/k/20231202A03KPW00?no-redirect=1&web_channel=wap&openApp=false

 

 

did ——在线生成数字人(只需要一张自己的照片,输入文字内容即可)

https://studio.d-id.com/

 

 

heygen——HeyGen是一个ai虚拟人,数字人网站,作为一个AIGC网站,用户可以在该平台上使用自带的数字人形象

https://www.heygen.com/

 

 

SadTalker ———国内腾讯开源的(显卡要8g起步,30秒视频要十几分钟)

https://github.com/OpenTalker/SadTalker

功能:SadTalker 是一个免费开源的项目,可以上传人物图像和音频就可以合成数字人播报的视频。可以作为插件运行在 Stable Diffusion 的 webUI 、compyUI中,对电脑的要求要高一些,我8G显存生成30秒的视频大约需要十几分钟。

 

教程:

https://www.bilibili.com/video/BV1Dc411W7V6/

案例:

https://github.com/OpenTalker/SadTalker

 

 

 

@@Linly-Talker ———开源,语音数字人项目——和我们要做的产品非常切合但是对硬件要求太高了

https://github.com/Kedreamix/Linly-Talker/blob/main/README_zh.md

https://space.bilibili.com/241286257

 

 

@@@数字人解决方案——Wav2lip语音驱动唇部

https://blog.csdn.net/matt45m/article/details/136672543?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-4-136672543-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-4-136672543-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&utm_relevant_index=6

 

 

 

@@@MakeItTalk - 让你的程序开口说话

https://blog.csdn.net/gitblog_00007/article/details/137584867

 

 

@@@数字人解决方案——ER-NeRF实时对话数字人

https://blog.csdn.net/matt45m/article/details/134256927?spm=1001.2101.3001.6650.6&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-6-134256927-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogOpenSearchComplete%7ERate-6-134256927-blog-138751992.235%5Ev43%5Epc_blog_bottom_relevance_base4&utm_relevant_index=8

 

 

 

@@@阿里的EMO ,图像生成数字人视频
https://zhuanlan.zhihu.com/p/670719684

 

https://humanaigc.github.io/vivid-talk/

 

 

 

@@@AniTalker 

https://blog.csdn.net/u012842807/article/details/138751992

 

https://blog.csdn.net/matt45m/article/details/138812125?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171932035316800197062514%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171932035316800197062514&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-138812125-null-null.142^v100^pc_search_result_base4&utm_term=anitalker&spm=1018.2226.3001.4187

 

 

 

 

Animatediff——提出了一种将任何定制化文生图模型拓展用于动画生成的框架,可以在保持原有定制化模型画面质量的基础上,生成相应的动画片段。

这个项目分别可以独立部署,也可以在Stable Diffusion对应的WebUI或ComfyUI中运行。

可以结合Prompt Travel生成连续的动画视频。

https://animatediff.github.io/

 

 

 

@@@Edge-TTS 是一个使用微软的 Azure Cognitive Services 实现文本到语音转换(TTS)的 Python 库。它提供了一个简单的 API,允许将文本转换为语音,并支持多种语言和声音。

 

 

 

@@@Google Text-to-Speech (gTTS) 库 ——文本转语音。

Google Text-to-Speech (gTTS) 库,这是一个广泛使用的开源工具,能够将文本转换为自然流畅的音频。通过调用Google的API,该库提供了一种简单的方法来实现高质量的语音合成。

1. 自定义设置 - 可以调整音速、音高和语调,使生成的语音更加个性化。

 

 

 

语音特征提取DeepSpeech

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。这里使用DeepSpeech来对生成的语音进行特征提取,提取出来的语音特征保存为npy文件用于合成视频。

 

 

GPT-SoVITS————语音克隆:利用GPT-SoVITS等技术,用户可以上传一分钟的语音样本进行微调,系统将克隆用户的声音,使得数字人能够以用户的声音进行对话。

 

 

 

Runway Gen-2 ——图片生成视频

https://app.runwayml.com/

功能:Gen-2模型可以使用文本生成视频或者使用文本+图片结合,也可以上传图像直接生成视频。总体效果不错,结合Midjourney等可以有概念大片的既视感。目前初始生成4秒视频,最多可以延展到16秒。

 

 

 

Pika Labs——同样可以使用文本生成视频

https://discord.gg/pika

功能:同样可以使用文本生成视频,也可以上传图片作为参考图来生成,目前单个视频只能生成3秒

 

 

 

LeiaPix

网址https://convert.leiapix.com/

功能:上传图片自动识别景深生成3D动态效果,可以自定义运动轨迹、运动量等多个参数,甚至可以手动绘制深度信息

 

 

 

CrazyTalk ——是全球最受欢迎脸部动画软件,简单使用声音及文本即可生成栩栩如生的表情动画

https://www.reallusion.com/cn/crazytalk/default.html

 

 

 

 

@@@卡通数字人,抖音教程:—用的 did 生成的
https://www.douyin.com/video/7219996659957255485

 

 

@@@AI能让任意一张照片开口唱歌和说话: ——用的通义千问的EMO 模板功能

https://www.bilibili.com/video/BV12C411n7nN/

 

@@万彩 ai 生成一段口播数字人视频  (自己搭建还是要服务器!!!)

https://www.animiz.cn/blog-8924.html

 

 

 

 

@代码库形式实现,人脸头像转成gif口播动图@

1   前端(h5):TensorFlow 的face-api.js人脸识别

https://cloud.tencent.com/developer/article/2243934

https://github.com/justadudewhohacks/face-api.js/tree/master

 

2   后端(python): openCV 

https://blog.csdn.net/Amzmks/article/details/121742174

———————————

要实现用户上传人脸头像并将其转换为口播GIF动图的功能,确实需要在后端进行处理。这通常涉及到人脸检测、特征点识别、图像处理和GIF生成等步骤。后端处理可以使用Java或Python,两者都有相关的类库可以用来实现这些功能。

 

Python后端处理

在Python中,你可以使用以下库:

 

Face Detection and Feature Points: dlib 或 opencv (带Haar级联分类器)

Image Processing: PIL 或 Pillow (用于图像操作和GIF生成)

GIF Generation: imageio 或 Pillow

 

 

Java后端处理

在Java中,你可以使用以下库:

 

Face Detection and Feature Points: OpenCV的Java绑定

Image Processing: Java的javax.imageio包 (用于GIF生成)

 

 

实现步骤

用户上传: 用户通过前端上传人脸图片到后端服务器。

人脸检测: 后端接收图片,使用人脸检测库检测人脸区域。

特征点识别: 在检测到的人脸区域上识别特征点(如眼睛、嘴巴等)。

图像处理: 根据特征点位置创建口播动画,这可能涉及到图像的变形或特定区域的移动。

生成GIF: 将处理后的帧图像序列组合成GIF动图。

返回GIF: 将生成的GIF动图返回给前端,或者存储并提供一个URL给用户下载

———————————

当然有其他方案和办法来实现这个功能。

将人脸头像转换为口播GIF动图可以通过多种技术途径实现,具体取决于你的需求和资源。以下是一些可能的方案:

 

1. **使用现成的API服务**:

   有一些第三方API提供人脸动画服务,你可以使用这些服务来简化开发过程。例如,一些服务允许你上传人脸图片,然后根据预设的动画模板生成GIF动图。这通常需要发送网络请求并处理JSON格式的数据。

 

2. **前端JavaScript实现**:

   如果你对性能要求不高,或者不想处理服务器端的复杂逻辑,可以考虑在前端使用JavaScript来实现。有一些JavaScript库,如`face-api.js`(基于TensorFlow.js),可以在浏览器中直接进行人脸检测和动画生成。

 

3. **深度学习模型**:

   如果你有一定的机器学习和深度学习背景,可以使用深度学习模型来生成更自然和定制化的面部动画。这通常涉及到训练一个模型来预测不同面部表情的关键点位置,然后使用这些关键点来驱动面部动画。

 

4. **使用视频转换服务**:

   另一个方案是先将人脸头像转换为视频,然后再将视频转换为GIF。有一些API和服务可以自动完成这个过程,你可以根据需要定制视频中的动画效果。

 

5. **自定义动画引擎**:

   如果你对动画效果有非常特定的需求,可以考虑开发一个自定义的动画引擎。这涉及到编写复杂的图像处理算法,可以根据人脸特征点来生成动画。

 

6. **混合实现**:

   你也可以选择一个混合方案,例如,使用API服务来生成基本的动画,然后使用自定义代码来进一步编辑和优化动画效果。

选择哪种方案取决于你的项目需求、预算、时间限制以及技术能力。如果你是初学者或者对图像处理和机器学习不太熟悉,使用现成的API服务可能是最简单快捷的方法。如果你需要高度定制化的解决方案,那么开发一个自定义的后端服务可能是必要的。

 

https://blog.csdn.net/zhangbijun1230/article/details/86935655

 

———————————————————

posted @   JavAndroidJSql  阅读(8)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示