ai数字人相关研究
目标:
角色头像,口播,语音,文本生成语音:
上传自己的人像图片让人物开口说话,可以用文本生成语音(支持中文)也可以上传自己的音频。
上传人物图像和音频就可以合成数字人播报的视频
ps: 有源码的自己部署的,需要有高配置的服务器,尤其是显卡!
在线的工具也没api 直接提供,无法使用!
数字人工具集合说明(让图片动起来)
https://blog.csdn.net/adofsauron/article/details/134717010
https://www.bilibili.com/video/BV1Nz4y14739/?vd_source=ef19579228de6eb5fe906a0073d7f29d
ai让图片动起来工具
https://baijiahao.baidu.com/s?id=1788406130246638060&wfr=spider&for=pc
微软的(效果非常真实口型也对的上,没有上市)
https://view.inews.qq.com/k/20231202A03KPW00?no-redirect=1&web_channel=wap&openApp=false
did ——在线生成数字人(只需要一张自己的照片,输入文字内容即可)
heygen——HeyGen是一个ai虚拟人,数字人网站,作为一个AIGC网站,用户可以在该平台上使用自带的数字人形象
SadTalker ———国内腾讯开源的(显卡要8g起步,30秒视频要十几分钟)
https://github.com/OpenTalker/SadTalker
功能:SadTalker 是一个免费开源的项目,可以上传人物图像和音频就可以合成数字人播报的视频。可以作为插件运行在 Stable Diffusion 的 webUI 、compyUI中,对电脑的要求要高一些,我8G显存生成30秒的视频大约需要十几分钟。
教程:
https://www.bilibili.com/video/BV1Dc411W7V6/
案例:
https://github.com/OpenTalker/SadTalker
@@Linly-Talker ———开源,语音数字人项目——和我们要做的产品非常切合但是对硬件要求太高了
https://github.com/Kedreamix/Linly-Talker/blob/main/README_zh.md
https://space.bilibili.com/241286257
@@@数字人解决方案——Wav2lip语音驱动唇部
@@@MakeItTalk - 让你的程序开口说话
https://blog.csdn.net/gitblog_00007/article/details/137584867
@@@数字人解决方案——ER-NeRF实时对话数字人
@@@阿里的EMO ,图像生成数字人视频
https://zhuanlan.zhihu.com/p/670719684
https://humanaigc.github.io/vivid-talk/
@@@AniTalker
https://blog.csdn.net/u012842807/article/details/138751992
Animatediff——提出了一种将任何定制化文生图模型拓展用于动画生成的框架,可以在保持原有定制化模型画面质量的基础上,生成相应的动画片段。
这个项目分别可以独立部署,也可以在Stable Diffusion对应的WebUI或ComfyUI中运行。
可以结合Prompt Travel生成连续的动画视频。
https://animatediff.github.io/
@@@Edge-TTS 是一个使用微软的 Azure Cognitive Services 实现文本到语音转换(TTS)的 Python 库。它提供了一个简单的 API,允许将文本转换为语音,并支持多种语言和声音。
@@@Google Text-to-Speech (gTTS) 库 ——文本转语音。
Google Text-to-Speech (gTTS) 库,这是一个广泛使用的开源工具,能够将文本转换为自然流畅的音频。通过调用Google的API,该库提供了一种简单的方法来实现高质量的语音合成。
1. 自定义设置 - 可以调整音速、音高和语调,使生成的语音更加个性化。
语音特征提取DeepSpeech
PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。这里使用DeepSpeech来对生成的语音进行特征提取,提取出来的语音特征保存为npy文件用于合成视频。
GPT-SoVITS————语音克隆:利用GPT-SoVITS等技术,用户可以上传一分钟的语音样本进行微调,系统将克隆用户的声音,使得数字人能够以用户的声音进行对话。
Runway Gen-2 ——图片生成视频
功能:Gen-2模型可以使用文本生成视频或者使用文本+图片结合,也可以上传图像直接生成视频。总体效果不错,结合Midjourney等可以有概念大片的既视感。目前初始生成4秒视频,最多可以延展到16秒。
Pika Labs——同样可以使用文本生成视频
功能:同样可以使用文本生成视频,也可以上传图片作为参考图来生成,目前单个视频只能生成3秒
LeiaPix
网址:https://convert.leiapix.com/
功能:上传图片自动识别景深生成3D动态效果,可以自定义运动轨迹、运动量等多个参数,甚至可以手动绘制深度信息
CrazyTalk ——是全球最受欢迎脸部动画软件,简单使用声音及文本即可生成栩栩如生的表情动画
https://www.reallusion.com/cn/crazytalk/default.html
@@@卡通数字人,抖音教程:—用的 did 生成的
https://www.douyin.com/video/7219996659957255485
@@@AI能让任意一张照片开口唱歌和说话: ——用的通义千问的EMO 模板功能
https://www.bilibili.com/video/BV12C411n7nN/
@@万彩 ai 生成一段口播数字人视频 (自己搭建还是要服务器!!!)
https://www.animiz.cn/blog-8924.html
@代码库形式实现,人脸头像转成gif口播动图@
1 前端(h5):TensorFlow 的face-api.js人脸识别
https://cloud.tencent.com/developer/article/2243934
https://github.com/justadudewhohacks/face-api.js/tree/master
2 后端(python): openCV
https://blog.csdn.net/Amzmks/article/details/121742174
———————————
要实现用户上传人脸头像并将其转换为口播GIF动图的功能,确实需要在后端进行处理。这通常涉及到人脸检测、特征点识别、图像处理和GIF生成等步骤。后端处理可以使用Java或Python,两者都有相关的类库可以用来实现这些功能。
Python后端处理
在Python中,你可以使用以下库:
Face Detection and Feature Points: dlib 或 opencv (带Haar级联分类器)
Image Processing: PIL 或 Pillow (用于图像操作和GIF生成)
GIF Generation: imageio 或 Pillow
Java后端处理
在Java中,你可以使用以下库:
Face Detection and Feature Points: OpenCV的Java绑定
Image Processing: Java的javax.imageio包 (用于GIF生成)
实现步骤
用户上传: 用户通过前端上传人脸图片到后端服务器。
人脸检测: 后端接收图片,使用人脸检测库检测人脸区域。
特征点识别: 在检测到的人脸区域上识别特征点(如眼睛、嘴巴等)。
图像处理: 根据特征点位置创建口播动画,这可能涉及到图像的变形或特定区域的移动。
生成GIF: 将处理后的帧图像序列组合成GIF动图。
返回GIF: 将生成的GIF动图返回给前端,或者存储并提供一个URL给用户下载
———————————
当然有其他方案和办法来实现这个功能。
将人脸头像转换为口播GIF动图可以通过多种技术途径实现,具体取决于你的需求和资源。以下是一些可能的方案:
1. **使用现成的API服务**:
有一些第三方API提供人脸动画服务,你可以使用这些服务来简化开发过程。例如,一些服务允许你上传人脸图片,然后根据预设的动画模板生成GIF动图。这通常需要发送网络请求并处理JSON格式的数据。
2. **前端JavaScript实现**:
如果你对性能要求不高,或者不想处理服务器端的复杂逻辑,可以考虑在前端使用JavaScript来实现。有一些JavaScript库,如`face-api.js`(基于TensorFlow.js),可以在浏览器中直接进行人脸检测和动画生成。
3. **深度学习模型**:
如果你有一定的机器学习和深度学习背景,可以使用深度学习模型来生成更自然和定制化的面部动画。这通常涉及到训练一个模型来预测不同面部表情的关键点位置,然后使用这些关键点来驱动面部动画。
4. **使用视频转换服务**:
另一个方案是先将人脸头像转换为视频,然后再将视频转换为GIF。有一些API和服务可以自动完成这个过程,你可以根据需要定制视频中的动画效果。
5. **自定义动画引擎**:
如果你对动画效果有非常特定的需求,可以考虑开发一个自定义的动画引擎。这涉及到编写复杂的图像处理算法,可以根据人脸特征点来生成动画。
6. **混合实现**:
你也可以选择一个混合方案,例如,使用API服务来生成基本的动画,然后使用自定义代码来进一步编辑和优化动画效果。
选择哪种方案取决于你的项目需求、预算、时间限制以及技术能力。如果你是初学者或者对图像处理和机器学习不太熟悉,使用现成的API服务可能是最简单快捷的方法。如果你需要高度定制化的解决方案,那么开发一个自定义的后端服务可能是必要的。
https://blog.csdn.net/zhangbijun1230/article/details/86935655
———————————————————
工作1-3年,基础知识,多看书。多跟着别人做项目,学习经验。 工作3-5年,新知识,高级知识,自己独立做项目,总结经验。尝试不同的语言。 工作5-8年,工作职位,要从设计,管理方面要求自己,可以尝试走管理路线(项目经理或cto)。 工作10年及以上, 自己做些项目,产品,尝试为创业做准备。 上大学和不上大学区别很大,上品牌大学和普通大学区别也很大,后天的努力最大。 ---无论它是在遥远的远方,还是在出发的地方、哪里有希望哪里就是我们的方向;终点、只不过是梦想起飞的地方。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了