Loading

尝试RVC音色克隆团长音色

前言

昨晚玩剑网3突发奇想,把团长声音克隆下来,利用语音喵制作成语音DBM。
这样不管团长开不开团,打团也能有团长声音听了诶嘿嘿。
于是当场关闭游戏声音录了打本的素材,本文就边做边记录。

下载

在B站找到了这个教程:
【你的声音,现在是我的了!】https://www.bilibili.com/video/BV1P541117yn
粗略看一遍感觉思路清晰,步骤明确。开始尝试。

打开项目页面 https://github.com/RVC-Boss/GPT-SoVITS

Release打开下载页面,下载v2版本,解压
解压好慢,可以先把录制的声音从视频分离出来

电脑上刚好有剪映,视频文件拖进去,右键分离音频,导出音频,wav格式

启动

解压后打开 go-webui.bat
官方中文教程:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

官方中文教程提供了在线使用的网址:https://gsv.acgnai.top/ ,里面有训练好的模型可以直接拿来用,配合F12可以下载自定义的语音文件,暂时没有发现有数量限制

UVR5人声伴奏分离&去混响去延迟

因为录制的音频是游戏内语音,加上团长用的麦不是很好,所以需要处理一下混响和噪声
开启 UVR5人声伴奏分离&去混响去延迟工具,等待一会后出现 UVR5 WebUI

选择 onnx_dereverb_by_FoxJoy模型 去混响,去延迟,
贴入wav文件文件夹路径,默认选择flac格式音频,直接转换
转换进度可以在bat窗口查看。5分钟才转换10%,预计要50分钟,可以看一下官方中文教程 睡一觉

睡了一觉发现转换好了,输出在程序的 output\uvr5_opt 文件夹里,确实把混响杂音去掉了一些

再用 DeEcho-Aggressive模型,对刚才用 onnx_dereverb_by_FoxJoy模型 处理过的flac文件重新处理一下
处理完成的文件名开头应该是 vocal,结尾是 main_vocal

语音切分&降噪&ASR

关闭 UVR5 WebUI,打开 GPT-SoVITS WebUI,进行语音切分、降噪、ASR

语音文本校对标注

校对文字,本页校对完成后点击 Submit Text 保存,Next Index下一页
有不需要的音频片段,右边 yes 打钩,上方 Delete Audio
image

开始TTS推理

posted @ 2024-09-21 22:15  xbule  阅读(24)  评论(0编辑  收藏  举报