两个月前推出的语音合成项目ChatTTS,以其惊人的效果迅速赢得了广泛关注!上线短短两个月,已经收获了28K的Star。
听过的人都对其赞不绝口。你可以在演示视频https://www.bilibili.com/video/BV1zn4y1o7iV/ 中亲自体验它的效果。
大家觉得演示视频效果如何?逼真吗?
简介
ChatTTS是一款专为对话场景设计的语音生成模型,适用于AI助手对话、对话语音和视频介绍,支持中英文。它对对话任务进行了优化,能够实现自然流畅的多说话人语音合成,并能够控制细粒度的韵律特征,如笑声、停顿和插入词。
ChatTTS在韵律方面表现出色,提供了预训练模型,支持进一步的研究和开发。
亮点
对话式 TTS: ChatTTS 针对基于对话的任务进行了优化,可实现自然且富有表现力的语音合成。它支持多位发言者,从而促进互动对话。
细粒度控制: 该模型可以预测和控制细粒度的韵律特征,包括笑声、停顿和感叹词。
优越的韵律表现: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。
ChatTTS一键无脑运行包
这个一键无脑运行包遵循了“一键运行 无脑使用”的原则。所有需要的文件和工具都已经集成在一个包内,无需联网,也不需要额外的配置。在个人电脑上,只需一次点击即可快速启动并使用。
为了简化使用流程,这个运行包完全不需要用户编写或运行代码,而是通过一个直观的WEBUI界面进行操作。下载并解压压缩包后,输入解压密码,然后双击“exe”即可启动程序,轻松上手。
获取软件包的方式:关注公众号 InnoTechX,发送“chattts”即可获取!
一键包里包含了三合一升级版,解压即可使用
ChatTTS官网在线运行
如果不想本地安装部署,ChatTTS官网也提供在线运行功能,直接访问 ChatTTS官网 https://chattts.com/ 即可使用。不过,生成50个字左右的语音需要22~30秒,如果你的显卡好一点,时间宝贵,可以加速这个过程。使用上面的一键包可以更快运行。我的显卡是2070S 8G,测试生成50个字的语音大约需要5秒,比官网提供的服务快了3~4倍。毕竟比起价格高昂的GPU服务器费用,个人PC电脑GPU算力更胜一筹。
官网测试结果23.1s
离线一键包测试结果5.2s
测试结果不是绝对的!!!
ChatTTS本地安装部署
克隆仓库
git clone https://github.com/2noise/ChatTTS
cd ChatTTS
安装要求
直接安装(要求本地有Python环境,不建议)
pip install --upgrade -r requirements.txt
pip install gradio
pip install -c conda-forge pynini=2.1.5 && pip install WeTextProcessing
从Conda安装(建议 没有安装Conda自行去搜索安装教程 嫌麻烦直接使用一键包 )
conda create -n chattts python=3.10
conda activate chattts
pip install -r requirements.txt
开启GPU推理
如果你要使用GPU,可以通过以下步骤开启GPU推理:
pip install torch2.1.2 torchvision0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu121
修改chatTTS目录中的core.py文件中的第124行左右的代码,也许后期代码会被修改,大致在124行前后
def load(
self,
source: Literal["huggingface", "local", "custom"] = "local",
force_redownload=False,
compile: bool = true,
custom_path: Optional[torch.serialization.FILE_LIKE] = None,
device: Optional[torch.device] = None,
coef: Optional[torch.Tensor] = None,
use_flash_attn=False,
)
将compile: bool = true改为compile: bool = False。
运行代码
python examples/web/webui.py
你将看到运行结果页面,访问 http://localhost:8080/