Mockingbird_核心论文解读推荐

一.Encoder:GE2E
参考知乎网址：GE2E论文解读
小结：
1.模型结构图：

2.输入为40-dim log-mel spectrogram，输出低维的speaker embedding
3.目标：拉近说话人embedding和对应质心的距离，拉远该embedding和其他说话人的质心.在训练期间，我们希望每个语音的嵌入都与该语音说话者的质心相似，同时又远离其他说话者的质心。如图中的相似度矩阵所示，我们希望有色区域的相似度值较大，而灰色区域的相似度值较小。
4.实现方法：softmax loss：增大了(蓝色, 红色)、(蓝色，紫色)这两对negative pair的距离；contrast loss：只会增大(蓝色, 红色)这一对的距离，因为它们的距离最近。
5.从完整音频中得到speaker embedding:将音频分段，得到每一段的embedding之后求平均得到最后的embedding

二.Synthesizer:Tacotron
参考CSDN网址：端到端的TTS深度学习模型tacotron(中文语音合成)
参考知乎网址：Tacotron&Tacotron2——基于深度学习的端到端语音合成模型
小结：
1.模型结构图：

2.将形式为（text（字典向量）,audio(MFCC特征)）的文本数据转化为character embedding作为模型的输入，输出为mel-spectrogram frame
3.Encoder：pre-net module，CBHG module
（1）CBHG模块由1-D convolution bank ，highway network ，bidirectional GRU 组成。它的功能是从输入中提取有价值的特征，有利于提高模型的泛化能力。
4.Decoder：pre-net ， Attention-RNN ， Decoder-RNN
（1）Pre-net的结构与encoder中的pre-net相同，主要是对输入做一些非线性变换
（2）减少了模型训练和预测的时间，提高收敛的速度
5.post-processing
（1）post-processing能看到整个解码的序列，而不像seq2seq那样，只能从左至右的运行。它能够通过正向传播和反向传播的结果来修正每一帧的预测错误。

三.Sybthesizer:GSTs
参考知乎网址：Global Style Tokens (GSTs)——无监督语音风格建模
小结：
1.模型结构图：

2.输入为音频序列，输出为style embedding,该style embedding将会加入Tacotron的Encoder中。
3.语音的style中包含很多能使TTS合成更加自然语音的关键信息，比如intention（倾向）和emotion（情绪）
4.这里的attention采用的是multi-head attention
5.训练时，经过reference encoder会生成reference embedding, 将其加入"stoken style"layer后生成tokens（GSTs），即图中的A、B、C、D。输入待克隆音频时，其在"stoken style"layer中会与各个GSTs进行比较计算然后输出最终的style embedding

四.Vocoder:WaveRNN
参考知乎网址：WaveRNN——基于神经网络的高速音频合成
小结：
1.NLL代表negative log likelihood, 它的值越小越好
2.论文提出了单层循环神经网络 WaveRNN，以及双 softmax 层，合成音频质量可与最先进的 WaveNet 模型相媲美。网络的密集形式可以在 GPU 上产生比实时速度快 4 倍的 24kHz 16 位音频

R 这一层是一个GRU layer, 它首先会用来生成coarse 8 bit， coarse 8bit 生成后会当做输入去生成 fine 8 bits
3.论文采用权重修剪方法（ weight pruning technique）减少了 WaveRNN 的权重数量。参数数量固定时，稀疏网络表现比小型密集网络更好，且稀疏度高达 96% 时也能保持该对比关系。由于权重数量减少，稀疏 WaveRNN 可以在移动 CPU 上生成高保真音频
4.论文提出一种新的基于子尺度的生成方法，将长序列分成一批短序列，并可以同时生成多个样本 (fold a long sequency into a batch of shorter sequences and allows one to generate multiple samples at once)

5.目的：语音合成，更快地生成序列，保持语音高质量
6.输入是synthesis训好的模型产生的mel-spectrogram

五.Vocoder:HiFi-GAN
参考知乎网址：细读经典：HiFiGAN，拥有多尺度和多周期判别器的高效声码器
小结：
1.模型结构：HiFi-GAN包括一个生成器和两个判别器
2.HiFiGAN的生成器主要有两块，一个是上采样（插值）结构，具体是由一维转置卷积组成；二是所谓的多感受野融合（Multi-Receptive Field Fusion，MRF）模块，主要负责对上采样获得的采样点进行优化，具体是由残差网络组成
3.HiFiGAN的判别器有两个，分别是多尺度（multi-scale discriminator（MSD））和多周期判别器（multi-period discriminator (MPD)），从两个不同角度分别鉴定语音。多尺度判别器源自MelGAN声码器的做法，不断平均池化语音序列，逐次将语音序列的长度减半，然后在语音的不同尺度上施加若干层卷积，最后展平，作为多尺度判别器的输出。多周期判别器则是以不同的序列长度将一维的音频序列折叠为二维平面，在二维平面上施加二维卷积
4.HiFiGAN的损失函数主要包括三块，一个是GAN原始的生成对抗损失（GAN Loss）；第二是梅尔频谱损失（Mel-Spectrogram Loss），将生成音频转换回梅尔频谱之后，计算真实和生成梅尔频谱之间的L1距离；第三个是特征匹配损失（Feature Match Loss），主要是对比中间卷积层真实和合成样本之间特征的差异。
5.GAN参考知乎网址：通俗理解生成对抗网络GAN
小结：
GAN的主要结构包括一个生成器G（Generator）和一个判别器D（Discriminator）。在上面的例子中的球员就相当于生成器，我们需要他在球场上能有好的表现。而球员一开始都是初学者，这个时候就需要一个教练员来指导他们训练，告诉他们训练得怎么样，直到真的能够达到上场的标准。而这个教练就相当于判别器。
值得一提的是在这个过程中，所有的候选球员都在不断地进步和提升。因而教练也要不断地通过对比场上球员和候补球员来学习分辨哪些球员是真正可以上场的，并且要“观察”得比球员更频繁。随着大家的成长教练也会会变得越来越严格。

六.Vocoder:Fre-GAN
参考知乎网址：语音合成论文优选：Fre-GAN: Adversarial Frequency-consistent Audio Synthesis

七.SV2TTS
参考知乎网址：SV2TTS（Real-Time-Voice-Cloning）论文简介及中文复现
小结：
1.模型结构图：

模型分为3个模块构成，encoder模块，systhesis模块，vocoder模块。
2.encoder模块将说话人的声音转换成speaker embedding
3.synthesis模块将文本转换成mel-spectrogram
4.vocoder模块将mel-spectrogram转换成waveform
5.代码中speaker embed、style embed加入tacotron的encoder中

最后感谢以上参考文章作者对论文的解读！

posted on 2022-03-14 19:45 孜孜不倦fly 阅读(843) 评论(0) 收藏举报