Lee's NLP bert模型

speech seperation（言语分离）

TAsnet 网络 ----可以将人说话的声音差不多15%的分离出来（这是什么准确率。。。。泰拉）

先进过encoder编码器将混合的声音（0-2ms）变成一个spectrum（谱图），这个谱图分成speaker1的谱图和speaker2的谱图 speaker1's spectrum 和 speaker2's spectrum

通过decoder处理，（就是用原来的图片乘以生成的speaker1 和 speaker2 的spectrum（谱图！））最后生成了分离之后的声音信号 speaker1 的voice 和 speaker2 的 voice！！ ------TasNet 的基本思路

speech synthesis（语音合成）

deep voice（百度研发的一款语音合成软件，通过分离语音元素：例如音标和期待的读音时间：比如说K音标期待的时间是 0.1s 之类最后合成在一起生成了合成的语音）----> 思路还是比较巧妙！！

注：graptheme 实现的是识别每个字母怎么读；

duration是实现每一个字母所读出来的时间；

fundamental frequency prediction是预测每一个字母是用多大的声音频率来进行播放；

最后再生成一个audio synthesis 来讲duration 和fundamental进行合成输出语音结果！！！！

tacotron（因论文作者喜欢吃墨西哥卷饼而命名。。。）

语音合成网络！！！

输入是：character（文字）

输出是：spectrum（谱图）

input ：character ---> Pre-net ----> CBHG ------> attention（注意力机制） ------->CBHG ------> Vocoder ----->output:spectrum（谱图）

encoder --- attention -----decoder（加码器 --- 注意力机制 --- 解码器！！！！）解码器是由Pre-net 和 RNN串合成的网络图谱！！！

Tacotron 测试的时候一定要加dropout（不然输出会效果不好，老师也无法解释。。。。无语：（）

之前必须输入的是lexicon上的词语。现在可以使用hybrid input（混合输入），可以自己输入一些没有读过或者字典里面没有的句子，然后进行输入（使用character 和 phoneme 合成输入）

可以在tacotron中加入一些文法的咨询进去，比如说：动词片语和名词片语之类的（for example）

暂时还不太清楚 attention机制，之后了解了回来补上！！

HTS ：基于HMM/DNN网络的语音合成系统（直接在database里面找语音，然后丢到HMM or DNN网络中训练，得到parameters；根据label来合成语音。。。。也挺无语的）

model 2 voice（模型合成是声音）

注：通过Speech Database中寻找相似（合适）的语音信号，然后通过Training HMM（训练网络）来进行合成；

再通过HMM生成的parameters和之前标注好的label（怎么又是这个东西，淦）来生成语音合成的filters（滤波器）

NP，PP，VBP，VP，NP，NNS之类的东西，也相当于做标注

bert 有可以当做 tacotron的输入，bert有很多的representation，可以当做是tacotron的输入！！！

注：bert非常重要！！！

Fast Speech == DurIAN

运行，生成出一个Duration，Duration中输出为numbers，duration就是复制vector长度的目标！！（感觉这个就相当于是deep voice的duration 期待值，只不过使用vector值来替代）

没有数据可以自己造数据：先得到语音信号（随便讲几句话，然后通过speech2text转换成本文文件；

这样文本信息--> label 和语音信息---> voice 就都可以得到了）！（不愧是白嫖大师！）

tips：让输入输出越接近越好！！！ ---> dual learning（但是，引出下面的问题，直接copy过去，一模一样的，loss肯定小，一定要预防这个）

注：ASR ：automatic speech recognition（自动语音识别）

TTS ：text to speech（合成语音）

controllable TTS（可以控制的text to speech）

谁在说？怎么说？说什么？（top3 questions）

怎么防止机器直接copy过去（上面的问题）

答案：在TTS model中加feature 提取器，提取出point！

提取出的feature，就是token，是语音输出的参数！！！

通过改变token来改变讲话的不通方式！！！

或者使用2 second training ：两阶段训练，可以刻意的不一样的text和voice，所以可以使用2 stages 的方法。

避免训练过程中，直接copy语音文字两种方法！

（speech synthesis 语音合成完）

posted @ 2022-07-13 15:01 Dyral_HAN 阅读(55) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Dyral_HAN

Lee's NLP bert模型

公告