ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面（建议收藏）

合集 - 人工智能(65)

1.Python之禅，开宗明义：import this2024-05-03 2.Python深入理解*和**含义和应用2024-05-03 3.[每日AI·0430]首个自主更新的多模态大模型，马斯克访华，文本一键转3D数字人骨骼动画，创新的虚拟试衣模型2024-05-03 4.国内免费的AI工具出色地帮我辅导女儿的小学英语作业2024-05-04 5.[每日AI·0506]巴菲特谈 AI，李飞飞创业，苹果或将推出 AI 功能，ChatGPT 版搜索引擎2024-05-06 6.AI已来，我与AI一起用Python编写了一个消消乐小游戏2024-05-10 7.玩转AI，笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端2024-05-12 8.一文彻底整明白，基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南2024-05-18 9.基于Llama 3搭建中文版（Llama3-Chinese-Chat）大模型对话聊天机器人2024-05-21 10.借助AI大模型，三分钟原创一部儿童故事短视频（附完整操作步骤）2024-05-31 11.[AI资讯·0531] 达摩院医疗AI新里程碑，OpenAI价值数十亿美元，微软投资130亿美元，百度文库成为一站式AI内容获取与创作平台，三大运营商完成AI产品市场，AI获得成功PMF需多次尝试……2024-05-31 12.本地部署GLM-4-9B清华智谱开源大模型方法和对话效果体验2024-06-08

13.ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面（建议收藏）2024-06-09

14.[AI资讯·0609] SamAltman建立了庞大投资帝国，通义千问Qwen2发布即爆火，OpenAI泄密者公布165页文件，奥特曼百万年薪挖角谷歌TPU人才……2024-06-09 15.Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人2024-06-12 16.[AI资讯·0618] 快手AI模型可灵在质量优于Sora，OpenAI和谷歌发布新技术推动AI视频推理发展，Gemini1.5Pro在该榜单中表现突出2024-06-18 17.Stable Diffusion 3 大模型文生图“开源英雄”笔记本部署和使用教程，轻松实现AI绘图自由2024-06-18 18.[AI资讯·0622] Claude3.5超越GPT-4o，360推出AI搜索，OpenAI收购Rockset，华为发布大模型2024-06-22 19.Phi-3 模型手机部署教程（微软发布的可与GPT-3.5媲美的小模型）2024-06-23 20.大模型应用研发基础环境配置（Miniconda、Python、Jupyter Lab、Ollama等）2024-06-25 21.使用Llama3/Qwen2等开源大模型，部署团队私有化Code Copilot和使用教程2024-06-30 22.Google 发布了最新的开源大模型 Gemma 2，本地快速部署和体验2024-07-02 23.阿里Qwen2-72B大模型已是开源榜的王者，为什么还要推出其他参数模型，被其他模型打榜？2024-07-04 24.基于Qwen2/Lllama3等大模型，部署团队私有化RAG知识库系统的详细教程（Docker+AnythingLLM）2024-07-06 25.Ollama完整教程：本地LLM管理、WebUI对话、Python/Java客户端API应用2024-07-10 26.LivePortrait 数字人：开源的图生视频模型，本地部署和专业视频制作详细教程2024-07-14 27.基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）2024-07-20 28.太卷了，阿里云免费1个月大模型算力额度，玩转Llama3.1/Qwen2等训练推理2024-07-27 29.PyTorch 训练自定义功能齐全的神经网络模型的详细教程2024-08-02 30.vLLM CPU和GPU模式署和推理 Qwen2 等大语言模型详细教程2024-08-11 31.MiniCPM-V 2.6 面壁“小钢炮”，多图、视频理解多模态模型，部署和推理实战教程2024-08-14 32.InternLM 2.5 书生·浦语开源大模型本地部署体验2024-08-24 33.GLM-4-Flash 大模型API免费了，手把手构建“儿童绘本”应用实战（附源码）2024-08-27 34.ChatTTS 长音频合成和本地部署2种方式，让你的“儿童绘本”发声的实战教程（文末有福利）2024-08-31 35.Agent(智能体)和 MetaGPT，一句话实现整个需求应用代码2024-09-07 36.基于 CrewAI 多智能体框架，手把手构建一个自动化写作应用实战2024-09-15 37.基于 Qwen2.5-Coder 模型和 CrewAI 多智能体框架，实现智能编程系统的实战教程2024-09-21 38.使用世界领先的 Qwen2.5-Math 开源模型当 AI 数学老师，让奥数解题辅导不在鸡飞狗跳（文末有福利）2024-09-28 39.transformers 推理 Qwen2.5 等大模型技术细节详解(一)transformers 初始化和对象加载（文末免费送书）2024-10-18 40.transformers 推理 Qwen2.5 等大模型技术细节详解(二)AutoModel 初始化和模型加载（免费送新书）2024-10-27 41.深入解析 Transformers 框架（三）：Qwen2.5 大模型的 AutoTokenizer 技术细节2024-11-01 42.告别 PPT 配图难题！Napkin.ai 轻松打造生动演示文档（文末免费送书）2024-11-04 43.深入解析 Transformers 框架（四）：Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解2024-11-09 44.Meissonic 文生图模型：小参数，超轻量，本地部署推理教程2024-11-16 45.Transformers 框架任务概览：从零开始掌握 Pipeline（管道）与 Task（任务）2024-11-21 46.Transformers 框架 Pipeline 任务详解：文本转音频（text-to-audio 或 text-to-speech）2024-12-01 47.Transformers 框架 Pipeline 任务详解：文本分类（text-classification 或 sentiment-analysis）2024-12-05 48.Bolt.new 用一句话快速构建全栈应用：本地部署与应用实战（Ollama/Qwen2.5 等）2024-12-07 49.Transformers 框架 Pipeline 任务详解（三）：词元分类（token-classification）和命名实体识别2024-12-12 50.深入解析 Transformers 框架（五）：嵌入（Embedding）机制和 Word2Vec 词嵌入模型实战2024-12-13 51.Transformers 框架 Pipeline 任务详解（四）：问答（question-answering）2024-12-18 52.Transformers 框架 Pipeline 任务详解（五）：表格问答（table-question-answering）2024-12-22 53.Transformers 框架 Pipeline 任务详解（六）：填充蒙版（fill-mask）2024-12-25 54.深度解析 Transformer 模型中的位置嵌入（Positional Embedding）2024-12-29 55.使用Cursor + Qwen2.5 大模型零经验研发微信小程序：自由构建个性化节拍器应用实战01-03 56.Cline 免费插件 + Qwen2.5 大模型，零经验也能开发“对联王”微信小程序01-12 57.感谢有你，共赴未来：2024年微信公众号创作总结 · 老牛同学01-23 58.新春“码”启 | 0 基础开发微信小游戏，Cocos 游戏引擎 + AI 辅助编程（第1天）01-24 59.新春“码”启 | 0 基础开发微信小游戏，Cocos 游戏引擎 + AI 辅助编程（第2天）01-26 60.新春“码”启 | Cocos 3D 开发微信小游戏（第3天）：场景搭建与游戏链路基础开发01-28 61.新春“码”启 | Cocos 3D 开发微信小游戏（第4天）：游戏资源设计和框架核心源代码02-01 62.新春“码”启 | Cocos 3D 微信小游戏（第5天）：分包构建和上传发布（完美收官）02-06 63.DeepSeek vs. Qwen 大模型编程能力比拼，谁更适合作为你的 AI 辅助编程助手？02-09 64.欧拉角和四元数，3D 游戏开发中“旋转”难题的通俗讲解和应用实战02-15 65.MNN 手机本地部署 DeepSeek R1 和多模态大模型，告别服务器繁忙！02-21

ChatTTS（Chat Text To Speech）是专为对话场景设计的文本生成语音(TTS)模型，特别适用于大型语言模型(LLM)助手的对话任务，以及诸如对话式音频和视频介绍等应用。它支持中文和英文，还可以穿插笑声、说话间的停顿、以及语气词等，听起来很真实自然，在语音合成中表现出高质量和自然度（ChatTTS团队声称：突破开源天花板）。

同时，ChatTTS模型文件总大小1.1GB左右，常用的个人笔记本电脑均可部署，因此涉及到文本转语音场景，均可以自己操作转换了！

ChatTTS特点

由于ChatTTS以下极具吸引人的特点，使得它一经推出就成为了爆款：

多语言支持：ChatTTS的一个关键特性是支持多种语言，包括英语和中文。这使其能够为广泛用户群提供服务，并克服语言障碍。
大规模数据训练：ChatTTS使用了大量数据进行训练，大约有1000万小时的中文和英文数据。这样的大规模训练使其声音合成质量高，听起来自然。
对话任务兼容性：ChatTTS很适合处理通常分配给大型语言模型LLMs的对话任务。它可以为对话生成响应，并在集成到各种应用和服务时提供更自然流畅的互动体验。
开源计划：ChatTTS团队目前开源一个经过训练的基础模型。
控制和安全性：ChatTTS致力于提高模型的可控性，添加水印，并将其与LLMs集成。这些努力确保了模型的安全性和可靠性。
易用性：ChatTTS为用户提供了易于使用的体验。它只需要文本信息作为输入，就可以生成相应的语音文件。这样的简单性使其方便有语音合成需求的用户。

下载ChatTTS模型文件

因最大模型文件超过900MB，为了防止使用Git无法直接下载到本地，我们通过git-lfs工具包下载：

 brew install git-lfs

通过Git复制模型文件到笔记本电脑（文件夹：ChatTTS-Model）：

 git lfs install
git clone https://www.modelscope.cn/pzc163/chatTTS.git ChatTTS-Model

如果因网络不佳等原因，下载中断，我们可以通过以下命令在中断后继续下载：

 git lfs pull

ChatTTS模型文件列表

安装ChatTTS依赖包列表

下载ChatTTS官网GitHub源码：

 git clone https://gitcode.com/2noise/ChatTTS.git ChatTTS

进入源码目录，批量安装Python依赖包：

 pip install -r requirements.txt

特别注意：如果下载过程中，若出现找不到torch的2.1.0版本错误，请修改requirements.txt文件，把torch的版本修改为2.2.2后再次执行安装：

torch版本找不到

Python依赖包列表requirements.txt文件如下，我们也可以手工一个一个的进行安装，无需下载整个源码（注意：torch的版本号为2.2.2）：

 omegaconf~=2.3.0
torch~=2.2.2
tqdm
einops
vector_quantize_pytorch
transformers~=4.41.1
vocos
IPython

ChatTTS中文文本转音频文件

特别注意：经老牛同学的验证，ChatTTS官网的样例代码API已经过时，无法直接运行，特别是chat.load_models方法入参是错误的，下面是老牛同学通过阅读API入参且验证的可执行代码。

 # ChatTTS-01.py
 
import ChatTTS
import torch
import torchaudio
 
# 第一步下载的ChatTTS模型文件目录，请按照实际情况替换
MODEL_PATH = '/Users/obullxl/PythonSpace/ChatTTS-Model'
 
# 初始化并加载模型，特别注意加载模型参数，官网样例代码已经过时，请使用老牛同学验证代码
chat = ChatTTS.Chat()
chat.load_models(
    vocos_config_path=f'{MODEL_PATH}/config/vocos.yaml',
    vocos_ckpt_path=f'{MODEL_PATH}/asset/Vocos.pt',
    gpt_config_path=f'{MODEL_PATH}/config/gpt.yaml',
    gpt_ckpt_path=f'{MODEL_PATH}/asset/GPT.pt',
    decoder_config_path=f'{MODEL_PATH}/config/decoder.yaml',
    decoder_ckpt_path=f'{MODEL_PATH}/asset/Decoder.pt',
    tokenizer_path=f'{MODEL_PATH}/asset/tokenizer.pt',
)
 
# 需要转化为音频的文本内容
text = '大家好，我是老牛，微信公众号：老牛同学。很高兴与您相遇，专注于编程技术、大模型及人工智能等相关技术分享，欢迎关注和转发，让我们共同启程智慧之旅！'
 
# 文本转为音频
wavs = chat.infer(text, use_decoder=True)
 
# 保存音频文件到本地文件（采样率为24000Hz）
torchaudio.save("./output/output-01.wav", torch.from_numpy(wavs[0]), 24000)

运作Python代码：python ChatTTS-01.py

 $ python ChatTTS-01.py
WARNING:ChatTTS.utils.gpu_utils:No GPU found, use CPU instead
INFO:ChatTTS.core:use cpu
INFO:ChatTTS.core:vocos loaded.
INFO:ChatTTS.core:gpt loaded.
INFO:ChatTTS.core:decoder loaded.
INFO:ChatTTS.core:tokenizer loaded.
WARNING:ChatTTS.core:dvae not initialized.
INFO:ChatTTS.core:All initialized.
 20%|██████████████████████████▌                    | 76/384 [00:08<00:35,  8.62it/s]
 26%|██████████████████████████████████▌            | 536/2048 [00:48<02:17, 10.98it/s]

上述文本转音频程序执行完成，在本地目录生成了./output/output-01.wav音频文件，打开该音频文件，就可以听到非常自然流畅的语音了！

我们也可以在文本转换成语音之后，直接播放语音内容：

 # …… 其他包引用省略
from IPython.display import Audio
 
# …… 其他部分代码省略
 
# 播放生成的音频（autoplay=True 代表自动播放）
Audio(wavs[0], rate=24000, autoplay=True)

快速搭建WebUI界面

上面我们通过Python代码生成了音频文件，操作起来比较麻烦，现在我们构建一个WebUI可视化界面：

首先安装Python依赖包，列表如下：

 pip install omegaconf~=2.3.0 transformers~=4.41.1
pip install tqdm einops vector_quantize_pytorch vocos
pip install modelscope gradio

运行Python程序，即可看到可视化界面，我们可以随意输入文本来生成音频文件了：

WebUI可视化界面

 # ChatTTS-WebUI.py
 
import random
 
import ChatTTS
import gradio as gr
import numpy as np
import torch
from ChatTTS.infer.api import refine_text, infer_code
 
print('启动ChatTTS WebUI......')
 
# WebUI设置
WEB_HOST = '127.0.0.1'
WEB_PORT = 8089
 
MODEL_PATH = '/Users/obullxl/PythonSpace/ChatTTS-Model'
 
chat = ChatTTS.Chat()
chat.load_models(
    vocos_config_path=f'{MODEL_PATH}/config/vocos.yaml',
    vocos_ckpt_path=f'{MODEL_PATH}/asset/Vocos.pt',
    gpt_config_path=f'{MODEL_PATH}/config/gpt.yaml',
    gpt_ckpt_path=f'{MODEL_PATH}/asset/GPT.pt',
    decoder_config_path=f'{MODEL_PATH}/config/decoder.yaml',
    decoder_ckpt_path=f'{MODEL_PATH}/asset/Decoder.pt',
    tokenizer_path=f'{MODEL_PATH}/asset/tokenizer.pt',
)
 
 
def generate_seed():
    new_seed = random.randint(1, 100000000)
    return {
        "__type__": "update",
        "value": new_seed
    }
 
 
def generate_audio(text, temperature, top_P, top_K, audio_seed_input, text_seed_input, refine_text_flag):
    torch.manual_seed(audio_seed_input)
    rand_spk = torch.randn(768)
    params_infer_code = {
        'spk_emb': rand_spk,
        'temperature': temperature,
        'top_P': top_P,
        'top_K': top_K,
    }
    params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}
 
    torch.manual_seed(text_seed_input)
 
    text_tokens = refine_text(chat.pretrain_models, text, **params_refine_text)['ids']
    text_tokens = [i[i < chat.pretrain_models['tokenizer'].convert_tokens_to_ids('[break_0]')] for i in text_tokens]
    text = chat.pretrain_models['tokenizer'].batch_decode(text_tokens)
    # result = infer_code(chat.pretrain_models, text, **params_infer_code, return_hidden=True)
 
    print(f'ChatTTS微调文本：{text}')
 
    wav = chat.infer(text,
                     params_refine_text=params_refine_text,
                     params_infer_code=params_infer_code,
                     use_decoder=True,
                     skip_refine_text=True,
                     )
 
    audio_data = np.array(wav[0]).flatten()
    sample_rate = 24000
    text_data = text[0] if isinstance(text, list) else text
 
    return [(sample_rate, audio_data), text_data]
 
 
def main():
    with gr.Blocks() as demo:
        default_text = "大家好，我是老牛同学，微信公众号：老牛同学。很高兴与您相遇，专注于编程技术、大模型及人工智能等相关技术分享，欢迎关注和转发，让我们共同启程智慧之旅！"
        text_input = gr.Textbox(label="输入文本", lines=4, placeholder="Please Input Text...", value=default_text)
 
        with gr.Row():
            refine_text_checkbox = gr.Checkbox(label="文本微调开关", value=True)
            temperature_slider = gr.Slider(minimum=0.00001, maximum=1.0, step=0.00001, value=0.8, label="语音温度参数")
            top_p_slider = gr.Slider(minimum=0.1, maximum=0.9, step=0.05, value=0.7, label="语音top_P采样参数")
            top_k_slider = gr.Slider(minimum=1, maximum=20, step=1, value=20, label="语音top_K采样参数")
 
        with gr.Row():
            audio_seed_input = gr.Number(value=42, label="语音随机数")
            generate_audio_seed = gr.Button("\U0001F3B2")
            text_seed_input = gr.Number(value=42, label="文本随机数")
            generate_text_seed = gr.Button("\U0001F3B2")
 
        generate_button = gr.Button("文本生成语音")
 
        text_output = gr.Textbox(label="微调文本", interactive=False)
        audio_output = gr.Audio(label="语音")
 
        generate_audio_seed.click(generate_seed,
                                  inputs=[],
                                  outputs=audio_seed_input)
 
        generate_text_seed.click(generate_seed,
                                 inputs=[],
                                 outputs=text_seed_input)
 
        generate_button.click(generate_audio,
                              inputs=[text_input, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox],
                              outputs=[audio_output, text_output, ])
 
    # 启动WebUI
    demo.launch(server_name='127.0.0.1', server_port=8089, share=False, show_api=False, )
 
 
if __name__ == '__main__':
    main()

最后，运行WebUI程序，就可以享受可视化文本生成语音功能了：python ChatTTS-WebUI.py

关注本公众号，我们共同学习进步👇🏻👇🏻👇🏻

微信公众号：老牛同学

我的本博客原地址：https://mp.weixin.qq.com/s/rL3vyJ_xEj7GGoKaxUh8_A

部署Llama 3 8B开源大模型：玩转 AI，笔记本电脑安装属于自己的 Llama 3 8B 大模型和对话客户端

部署Llama 3 8BWeb版对话机器人：一文彻底整明白，基于 Ollama 工具的 LLM 大语言模型 Web 可视化对话机器人部署指南

部署中文版Llama 3（Llama3-Chinese-Chat）大模型：基于Llama 3搭建中文版（Llama3-Chinese-Chat）大模型对话聊天机器人

posted @ 2024-06-09 10:27 老牛啊阅读(6092) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

· Transformers 框架 Pipeline 任务详解：文本转音频（text-to-audio 或 text-to-speech）

· ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-tts

· ChatTTS-ui: 一个简单强大的本地文字转语音工具

· python系列&deep_study系列：最新ChatTTS语音合成项目本地、服务器部署（可远程访问（全部代码和详细部署步骤））

阅读排行：
· 10亿数据，如何做迁移？
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 推荐几款开源且免费的 .NET MAUI 组件库
· 易语言 —— 开山篇
· Trae初体验

历史上的今天：
2011-06-09 Android从SDCard中取得图片并设置为桌面背景
2011-06-09 Apache与Tomcat集群配置

奔跑的蜗牛·老牛同学

奔跑的蜗牛，记录的点滴：https://ntopic.cn

ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面（建议收藏）

ChatTTS特点

下载ChatTTS模型文件

安装ChatTTS依赖包列表

ChatTTS中文文本转音频文件

快速搭建WebUI界面

公告

常用链接

我的标签

合集 (6)

随笔分类 (137)

博客空间

阅读排行榜

推荐排行榜

	git lfs install
	git clone https://www.modelscope.cn/pzc163/chatTTS.git ChatTTS-Model

	omegaconf~=2.3.0
	torch~=2.2.2
	tqdm
	einops
	vector_quantize_pytorch
	transformers~=4.41.1
	vocos
	IPython

	# ChatTTS-01.py

	import ChatTTS
	import torch
	import torchaudio

	# 第一步下载的ChatTTS模型文件目录，请按照实际情况替换
	MODEL_PATH = '/Users/obullxl/PythonSpace/ChatTTS-Model'

	# 初始化并加载模型，特别注意加载模型参数，官网样例代码已经过时，请使用老牛同学验证代码
	chat = ChatTTS.Chat()
	chat.load_models(
	vocos_config_path=f'{MODEL_PATH}/config/vocos.yaml',
	vocos_ckpt_path=f'{MODEL_PATH}/asset/Vocos.pt',
	gpt_config_path=f'{MODEL_PATH}/config/gpt.yaml',
	gpt_ckpt_path=f'{MODEL_PATH}/asset/GPT.pt',
	decoder_config_path=f'{MODEL_PATH}/config/decoder.yaml',
	decoder_ckpt_path=f'{MODEL_PATH}/asset/Decoder.pt',
	tokenizer_path=f'{MODEL_PATH}/asset/tokenizer.pt',
	)

	# 需要转化为音频的文本内容
	text = '大家好，我是老牛，微信公众号：老牛同学。很高兴与您相遇，专注于编程技术、大模型及人工智能等相关技术分享，欢迎关注和转发，让我们共同启程智慧之旅！'

	# 文本转为音频
	wavs = chat.infer(text, use_decoder=True)

	# 保存音频文件到本地文件（采样率为24000Hz）
	torchaudio.save("./output/output-01.wav", torch.from_numpy(wavs[0]), 24000)

	$ python ChatTTS-01.py
	WARNING:ChatTTS.utils.gpu_utils:No GPU found, use CPU instead
	INFO:ChatTTS.core:use cpu
	INFO:ChatTTS.core:vocos loaded.
	INFO:ChatTTS.core:gpt loaded.
	INFO:ChatTTS.core:decoder loaded.
	INFO:ChatTTS.core:tokenizer loaded.
	WARNING:ChatTTS.core:dvae not initialized.
	INFO:ChatTTS.core:All initialized.
	20%\|██████████████████████████▌ \| 76/384 [00:08<00:35, 8.62it/s]
	26%\|██████████████████████████████████▌ \| 536/2048 [00:48<02:17, 10.98it/s]

	# …… 其他包引用省略
	from IPython.display import Audio

	# …… 其他部分代码省略

	# 播放生成的音频（autoplay=True 代表自动播放）
	Audio(wavs[0], rate=24000, autoplay=True)

	pip install omegaconf~=2.3.0 transformers~=4.41.1
	pip install tqdm einops vector_quantize_pytorch vocos
	pip install modelscope gradio

	# ChatTTS-WebUI.py

	import random

	import ChatTTS
	import gradio as gr
	import numpy as np
	import torch
	from ChatTTS.infer.api import refine_text, infer_code

	print('启动ChatTTS WebUI......')

	# WebUI设置
	WEB_HOST = '127.0.0.1'
	WEB_PORT = 8089

	MODEL_PATH = '/Users/obullxl/PythonSpace/ChatTTS-Model'

	chat = ChatTTS.Chat()
	chat.load_models(
	vocos_config_path=f'{MODEL_PATH}/config/vocos.yaml',
	vocos_ckpt_path=f'{MODEL_PATH}/asset/Vocos.pt',
	gpt_config_path=f'{MODEL_PATH}/config/gpt.yaml',
	gpt_ckpt_path=f'{MODEL_PATH}/asset/GPT.pt',
	decoder_config_path=f'{MODEL_PATH}/config/decoder.yaml',
	decoder_ckpt_path=f'{MODEL_PATH}/asset/Decoder.pt',
	tokenizer_path=f'{MODEL_PATH}/asset/tokenizer.pt',
	)


	def generate_seed():
	new_seed = random.randint(1, 100000000)
	return {
	"__type__": "update",
	"value": new_seed
	}


	def generate_audio(text, temperature, top_P, top_K, audio_seed_input, text_seed_input, refine_text_flag):
	torch.manual_seed(audio_seed_input)
	rand_spk = torch.randn(768)
	params_infer_code = {
	'spk_emb': rand_spk,
	'temperature': temperature,
	'top_P': top_P,
	'top_K': top_K,
	}
	params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}

	torch.manual_seed(text_seed_input)

	text_tokens = refine_text(chat.pretrain_models, text, **params_refine_text)['ids']
	text_tokens = [i[i < chat.pretrain_models['tokenizer'].convert_tokens_to_ids('[break_0]')] for i in text_tokens]
	text = chat.pretrain_models['tokenizer'].batch_decode(text_tokens)
	# result = infer_code(chat.pretrain_models, text, **params_infer_code, return_hidden=True)

	print(f'ChatTTS微调文本：{text}')

	wav = chat.infer(text,
	params_refine_text=params_refine_text,
	params_infer_code=params_infer_code,
	use_decoder=True,
	skip_refine_text=True,
	)

	audio_data = np.array(wav[0]).flatten()
	sample_rate = 24000
	text_data = text[0] if isinstance(text, list) else text

	return [(sample_rate, audio_data), text_data]


	def main():
	with gr.Blocks() as demo:
	default_text = "大家好，我是老牛同学，微信公众号：老牛同学。很高兴与您相遇，专注于编程技术、大模型及人工智能等相关技术分享，欢迎关注和转发，让我们共同启程智慧之旅！"
	text_input = gr.Textbox(label="输入文本", lines=4, placeholder="Please Input Text...", value=default_text)

	with gr.Row():
	refine_text_checkbox = gr.Checkbox(label="文本微调开关", value=True)
	temperature_slider = gr.Slider(minimum=0.00001, maximum=1.0, step=0.00001, value=0.8, label="语音温度参数")
	top_p_slider = gr.Slider(minimum=0.1, maximum=0.9, step=0.05, value=0.7, label="语音top_P采样参数")
	top_k_slider = gr.Slider(minimum=1, maximum=20, step=1, value=20, label="语音top_K采样参数")

	with gr.Row():
	audio_seed_input = gr.Number(value=42, label="语音随机数")
	generate_audio_seed = gr.Button("\U0001F3B2")
	text_seed_input = gr.Number(value=42, label="文本随机数")
	generate_text_seed = gr.Button("\U0001F3B2")

	generate_button = gr.Button("文本生成语音")

	text_output = gr.Textbox(label="微调文本", interactive=False)
	audio_output = gr.Audio(label="语音")

	generate_audio_seed.click(generate_seed,
	inputs=[],
	outputs=audio_seed_input)

	generate_text_seed.click(generate_seed,
	inputs=[],
	outputs=text_seed_input)

	generate_button.click(generate_audio,
	inputs=[text_input, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox],
	outputs=[audio_output, text_output, ])

	# 启动WebUI
	demo.launch(server_name='127.0.0.1', server_port=8089, share=False, show_api=False, )


	if __name__ == '__main__':
	main()