使用FishSpeech进行语音合成推理

部署

部署FishSpeech，优先参考github官方（https://speech.fish.audio/zh/）。

注意：此网站可能需要FQ才能访问。

个人为Windows电脑，使用Windows配置步骤。

Windows11配置过程

conda安装

下载Conda，地址：https://www.anaconda.com/download

点击Skip registration，进入下载界面，下载界面提供Anaconda 和 Miniconda 。

Anaconda 和 Miniconda它们之间的区别在于

本地电脑空间足够，下载Anaconda。

配置环境变量

安装后配置系统环境变量。

配置编译加速

参考官方教程，配置compile加速。

下载四个软件，安装。无需下载和执行install_env.bat。而是通过源代码来配置环境。

git拉取源代码下来，当前版本是1.5。cd进入当前项目根目录。

参考以下代码，通过Powershell控制台激活conda环境。

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech

# 安装 pytorch
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

# 安装 fish-speech
pip3 install -e .

# (开启编译加速) 安装 triton-windows
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

注意：conda init之后默认控制台进入base环境。

此系统上禁止运行脚本

提示此文案，一般是权限策略导致。

在以管理员身份运行 PowerShell ，执行以下命令：

Set-ExecutionPolicy RemoteSigned -Scope CurrentUser

创建快捷方式

在根目录新建一个bat，用于启动api服务器。文件名：start_api_server.bat

call conda activate fish-speech

cd /d %~dp0

python -m tools.api_server --listen 0.0.0.0:8080  --llama-checkpoint-path "checkpoints/fish-speech-1.5"  --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"  --decoder-config-name firefly_gan_vq --compile

再创建一个推理web的快捷方式。文件名：start_infer_web.bat

call conda activate fish-speech

cd /d %~dp0

python -m tools.run_webui --llama-checkpoint-path "checkpoints/fish-speech-1.5"  --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"  --decoder-config-name firefly_gan_vq --compile

带编译命令会启动慢一些，命令行会输出如下：