MockingBird_代码与论文不同的细节
摘要:一.合成器 1.合成器的文本输入被处理成512维的character embedding,具体如下图所示: 2.建议参考B站视频:语音合成超简洁训练代码框架 二.GSTs 1.由于原Tacotron的encoder输出为256维度,与说话人编码器的输出speaker embedding(也是256维
阅读全文
posted @
2022-05-26 23:39
孜孜不倦fly
阅读(190)
推荐(0) 编辑
MockingBird_解决Fre-GAN训练时的报错
摘要:一.报错信息以及断点调试信息 1.报错信息 /data/cpf/Parrot_V3/vocoder/fregan/train.py:166: UserWarning: Using a target size (torch.Size([16, 80, 40])) that is different t
阅读全文
posted @
2022-04-26 10:07
孜孜不倦fly
阅读(1004)
推荐(0) 编辑
Mockingbird_替换vocoder为Fre-GAN
摘要:一.参考论文以及项目源码 1.知乎网址:语音合成论文优选:Fre-GAN: Adversarial Frequency-consistent Audio Synthesis 2.github项目源码: 二.移植模块具体代码 1.vocodr_train.py中:选择需要训练的预训练模型 2.freg
阅读全文
posted @
2022-04-16 11:25
孜孜不倦fly
阅读(340)
推荐(0) 编辑
Mockingbird_训练自己的synthesizer模型
摘要:一.github作者指南 1.下载数据集并解压:确保您可以访问 train 文件夹中的所有音频文件(如.wav) 2.进行音频和梅尔频谱图预处理: python pre.py <datasets_root> -d {dataset} -n {number} 可传入参数: -d {dataset} 指
阅读全文
posted @
2022-04-06 09:57
孜孜不倦fly
阅读(3379)
推荐(0) 编辑
Mockingbird_用可视化工具tensorboard打开训练日志
摘要:一.找到训练日志路径 在生成的logs文件夹中 二.在终端输入读取日志的指令 tensorboard --logdir=F:\机器学习\实践\AI语音克隆\result\fly_2\logs 三.打开tensorboard服务 用microsoft edge打开红圈中的网址(用其他浏览器打开可能会出
阅读全文
posted @
2022-03-24 14:19
孜孜不倦fly
阅读(486)
推荐(0) 编辑
Mockingbird_对生成的语音进行降噪
摘要:一.处理源语音 1.定位: 2.仿造load_preprocess_wav()函数读入音频 3.新建enhance.py文件,主要使用减谱法和自适应滤波器法,代码如下: #!/usr/bin/env python import librosa import numpy as np import wa
阅读全文
posted @
2022-03-22 16:59
孜孜不倦fly
阅读(536)
推荐(0) 编辑
Mockingbird_关于“Enhance vocoder output、Random seed、embedding”解读
摘要:一.Enhance vocoder output 1.定位: 修剪多余的静音 二.Random seed 1.定位: 设置的是合成语音时的随机数种子,方便下次复现实验结果,参考网址:torch.manual_seed()用法详解 三.embedding 1.定位:
阅读全文
posted @
2022-03-22 11:31
孜孜不倦fly
阅读(81)
推荐(0) 编辑
Mockingbird_关于UI界面中可调节参数“Style、Accuracy、Maxlength”的解读
摘要:在深度学习中,使用学习好的模型做预测的过程叫inference(推测),UI界面中调节的以下参数,运行时均在inference.py中变化并且执行 一.Style 1.定位: 由图可见style_idx影响key,最后影响的是style_embed key值(键值)是多头注意力机制函数中的输入参数,
阅读全文
posted @
2022-03-21 20:27
孜孜不倦fly
阅读(162)
推荐(0) 编辑
Mockingbird_关于“umap映射图、参数dropout”解读
摘要:一.dropout 参考CSDN网址:理解dropout 小结: 1.含义:dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。故而每一个mini-batch都在训练不同的网络。 2.目的:防止过拟合提高效果 二.umap 参考知乎网址:Python—
阅读全文
posted @
2022-03-16 16:23
孜孜不倦fly
阅读(143)
推荐(0) 编辑
Mockingbird_关于“出现注意力模型”解读
摘要:一.问题 对于训练教程中“一定要出现注意力模型”“出现一条明显斜线”产生疑惑,特地查阅了相关资料解答了此疑惑 二.参考链接 1.CSDN资料地址:深度学习中的注意力机制 2.知乎资料地址:kaldi学习 alignment的概念 3.推荐“跟李沐学AI”B站视频:65 注意力分数【动手学深度学习v2
阅读全文
posted @
2022-03-15 19:49
孜孜不倦fly
阅读(184)
推荐(0) 编辑
Mockingbird_核心论文解读推荐
摘要:一.Encoder:GE2E 参考知乎网址:GE2E论文解读 小结: 1.模型结构图: 2.输入为40-dim log-mel spectrogram,输出低维的speaker embedding 3.目标:拉近说话人embedding和对应质心的距离,拉远该embedding和其他说话人的质心.在
阅读全文
posted @
2022-03-14 19:45
孜孜不倦fly
阅读(744)
推荐(0) 编辑
Mockingbird_pyqt5_ui修改(二)
摘要:一.本次关于该项目的UI修改较为复杂,主要目的如下: 1.打开本地源音频时同时生成MFCC分析折线图和MFCC平均归一化热图,用的是创建子窗口并显示图片的方法 2.生成克隆音频时同时生成MFCC分析折线图和MFCC平均归一化热图,方法同上 二.MFCC生成源码 1.参考CSDN网址:MFCC pyt
阅读全文
posted @
2022-03-13 19:49
孜孜不倦fly
阅读(123)
推荐(0) 编辑
Mockingbird_pyqt5_ui修改(一)
摘要:在ui.py文件中做如下修改: 一.设置背景图片 ##set the picture of background palette1 = QPalette() # palette1.setColor(self.backgroundRole(), QColor(192,253,123)) # 设置背景颜
阅读全文
posted @
2022-03-10 21:27
孜孜不倦fly
阅读(145)
推荐(0) 编辑
Mockingbird_Pyqt5+pycharm快速入门安装
摘要:1.参考B站教学视频:Pyqt5+pycharm快速入门安装 2.由于我使用的是anaconda,故工具路径与视频中不同: (1)designer.exe: E:\anaconda\envs\pytorch\Lib\site-packages\qt5_applications\Qt\bin\desi
阅读全文
posted @
2022-03-03 20:15
孜孜不倦fly
阅读(233)
推荐(0) 编辑
Mockingbird_开源中文语音克隆项目运行指南
摘要:github项目链接:mockingbird项目 1.点击此项目可查看中文说明文档。 步骤一.下载安装anaconda+pycharm组合 1.B站教学视频链接:Python+Anaconda+PyCharm的安装和基本使用【适合完全零基础】不只是教你如何安装,还告诉你为什么这么安装 (1)设置环境
阅读全文
posted @
2021-12-10 23:16
孜孜不倦fly
阅读(1191)
推荐(0) 编辑