使用FishSpeech进行语音合成推理

部署

部署FishSpeech,优先参考github官方(https://speech.fish.audio/zh/)。
注意:此网站可能需要FQ才能访问。
 
个人为Windows电脑,使用Windows配置步骤。

Windows11配置过程

conda安装

下载Conda,地址:https://www.anaconda.com/download
0
点击Skip registration,进入下载界面,下载界面提供Anaconda 和 Miniconda 。
 
0
Anaconda 和 Miniconda它们之间的区别在于
0
本地电脑空间足够,下载Anaconda。

配置环境变量

安装后配置系统环境变量。
 
0
 

配置编译加速

参考官方教程,配置compile加速。
 
0
下载四个软件,安装。无需下载和执行install_env.bat。而是通过源代码来配置环境。
git拉取源代码下来,当前版本是1.5。cd进入当前项目根目录。
参考以下代码,通过Powershell控制台激活conda环境。
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech

# 安装 pytorch
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

# 安装 fish-speech
pip3 install -e .

# (开启编译加速) 安装 triton-windows
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

 

注意:conda init之后默认控制台进入base环境。

此系统上禁止运行脚本

提示此文案,一般是权限策略导致。
在 以管理员身份 运行 PowerShell ,执行以下命令:
Set-ExecutionPolicy RemoteSigned -Scope CurrentUser

 

 

创建快捷方式

在根目录新建一个bat,用于启动api服务器。文件名:start_api_server.bat
call conda activate fish-speech

cd /d %~dp0

python -m tools.api_server --listen 0.0.0.0:8080  --llama-checkpoint-path "checkpoints/fish-speech-1.5"  --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"  --decoder-config-name firefly_gan_vq --compile

 

再创建一个推理web的快捷方式。文件名:start_infer_web.bat
call conda activate fish-speech

cd /d %~dp0

python -m tools.run_webui --llama-checkpoint-path "checkpoints/fish-speech-1.5"  --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"  --decoder-config-name firefly_gan_vq --compile

 

 
带编译命令会启动慢一些,命令行会输出如下:
 
0
API服务启动后的界面:
0
推理WEB界面:
0
 

语音合成客户端

下载客户端(https://github.com/AnyaCoder/fish-speech-gui/releases),客户端会被报病毒,如果要是用需要把软件找回并加入白名单。
软件界面:
 
0
输入后端url(默认本地路径),我这里通过FRP穿透,映射了一个公网域名。点击Test URL,没问题则表示成功连接了。
 
0

参考模型ID

将自己录制的语音处理好后,放到服务器项目根目录指定目录下。
  1. 创建references目录。
  2. 创建参考ID目录,可以是中文名。
  3. 放入录制语音文件(mp3、wav),和对应的文本内容(lab)。
 
 
0
 
0
 
不设置模型ID,也可以手动上传这两个文件。
 

合成语音

切换到【文本转语音】Tab,输入待合成文本。
0
点击开始语音合成,即可生成合成的语音文件。
posted @ 2025-02-19 17:54  天命小猪  阅读(1983)  评论(0)    收藏  举报