2018 年 8月随笔档案 - 冬色

声谱预测网络(Tacotron2)

摘要：整个特征预测网络是一个带有注意力机制(attention)的seq2seq网络。编码器解码器(Encoder Decoder)结构在原始的编码器解码器结构中，编码器(encoder)输入一个序列或句子，然后将其压缩到一个固定长度的向量(向量也可以理解为一种形式的序列)中；解码器(deco 阅读全文

posted @ 2018-08-24 08:56 冬色阅读(14386) 评论(0) 推荐(2) 编辑

深度网络中的Tricks

摘要：数据增强(Data augmentation) 预处理(Pre processing) 初始化(Initializations) 训练中的Tricks 激活函数(Activation functions) 正则化(Regularizations) 画图洞察数据集成学习(Ensemble) 数据增强阅读全文

posted @ 2018-08-16 20:46 冬色阅读(784) 评论(1) 推荐(0) 编辑

神经网络中的梯度消失

摘要：只要神经元足够，神经网络可以以任意精度逼近任意函数。为了拟合非线性函数，需要向神经网络中引入非线性变换，比如使用

s i g m o i d

$sigmoid$ 激活函数：

s i g m o i d (x) = \frac{1}{1 + e^{- x}}

$sigmoid(x)=\frac{1}{1+e^{-x}}$ $sigmoid(x)

可 简 写 为

$可简写为$ \sigma(x)\(，该函数可以将实数压缩到开阅读全文

posted @ 2018-08-15 13:00 冬色阅读(22423) 评论(0) 推荐(0) 编辑

语音合成技术概述

摘要：语音合成，又称文语转换(Text To Speech, TTS)，是一种可以将任意输入文本转换成相应语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息，对于中文合成系统而言，前端模块一般包含文本正则化、分词、词性预测、多音字消阅读全文

posted @ 2018-08-14 13:35 冬色阅读(23796) 评论(0) 推荐(1) 编辑

语音处理基础知识

摘要：前置知识激励：信号处理中的输入谐振：等同于共振，不同领域的不同称谓。当电路中激励的频率等于电路的固有频率时，电路的电磁振荡的振幅也将达到峰值，这就称作谐振。参见 "谐振百度百科" 白噪声：指功率谱密度在整个频域内均匀分布的噪声。参见 "白噪声百度百科" 音素：phoneme，语音中最阅读全文

posted @ 2018-08-12 22:57 冬色阅读(4503) 评论(0) 推荐(2) 编辑

冬色

GitHub: https://github.com/cnlinxi

08 2018 档案

公告

随笔分类

随笔档案

阅读排行榜