2024 年 7月 7 日随笔档案 - 刘悦的技术博客 - 博客园

2024年7月7日

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

摘要：

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

近日，阿里通义实验室开源了CosyVoice语音模型，它支持自然语音生成，支持多语言、音色和情感控制，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。 CosyVoice采用了总共超15万小时的数据训练，支持中英日粤韩5种语言的合成，合成效果显著优于传统语音合成模型。 C 阅读全文

posted @ 2024-07-07 18:33 刘悦的技术博客阅读(5792) 评论(1) 推荐(2) 编辑

公告

昵称：刘悦的技术博客
园龄： 13年4个月
粉丝： 101
关注： 3

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音
最后上面这个转换花了40-50分钟完成
--风车车来咯
2. Re:MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音
为什么转换这么慢，我是4070的显卡和12800hx的cpu，

这都转了20分钟了，还没转好，正常吗
--风车车来咯
3. Re:CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源
克隆的声音有粤语味
--南风丶丶
4. Re:Win11不在C盘安装WSL2(Linux环境),安装Nvidia驱动和默认使用Win11的网络代理服务
驱动版本有个Distribution=WSL-Ubuntu的，感觉这个是针对WSL的选的这个哈哈
--PandaTank
5. Re:离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope
可以试试MaixindaSubtitle，利用AI大模型一键将本地的音频与视频文件自动生成字幕内容，并翻译成指定语言。支持LLM大模型字幕提取、GPU加速、多文件上传、多语言识别与翻译。软件操作简单，...
--Miidy