心胸决定格局,眼界决定境界...

摘要: 对于混音方法,网上和文献上流传许多方法。1.平均权重2.随幅值变化的权重3.利用衰减因子缓慢规整4.绝对值处理5.A+B-A*B(书写不是很精确)经过实验,方法做了比较了:方法1.唯一的缺陷就是正反时抵消的情况方法2.计算量大,忽重忽轻方法3.小值的时候 比 线性的 声强要大,但是对于比较洪亮的歌曲,出现波形失真,会破音,也无法避免方法1的问题放大4.能保证语义信息,但是丢失了相位信息,声音失真。方法5.网上流传的经典算法 A+B-A*B,能克服1的问题,但是声音有些失真,其它情况,与方法1相当。方法5的理解:其实就是线性分量A+B与非线性分量A*B的一个叠加(A+B)/A*B=1/A+1/. 阅读全文
posted @ 2013-08-27 12:39 WELEN 阅读(614) 评论(0) 推荐(0) 编辑
摘要: 对于数字音频放大时,很容易造成溢出,波形出现失真,造成许多新的频率分量,直接听感就是噪声、破音等。常规处理方法就是对波形直接归一化对称,然后根据最大值拉伸到极限的比例放大所有音频采样点。这种方法能保证声音绝对不失真,缺点在于放大范围比较大。对于放大后超出音频最大值的样本点,都用最大值代替,相当部分波... 阅读全文
posted @ 2013-08-27 12:38 WELEN 阅读(1937) 评论(2) 推荐(0) 编辑
摘要: 对于采样率为Fs,长度为M个采样点的音频信号x[n],,通过采样因子P/Q进行重采样后,这个信号的样本数可以增大或者减小。该过程可以分为如下三个步骤[17]: (1)上采样:在原信号相邻两点内插入P-1个零点,即创建一个有P (M-1)+1个采样点的信号xu[n],当n=1,2,…,M时,xu[P( 阅读全文
posted @ 2013-08-27 12:37 WELEN 阅读(16789) 评论(1) 推荐(3) 编辑
摘要: 变调的方法也可以分为三类:时域法、频域法、参量法。时域法中,Crochiere等人于1983年提出了重采样的方法[42],该方法是实现变速变调最简单、最常用的方法之一。假设重采样因子为P/Q,其中,P为上采样因子,Q为下采样因子。上采样过程就是往原始信号相邻两点间内插P-1个采样点,这样使得基音周期... 阅读全文
posted @ 2013-08-27 12:36 WELEN 阅读(4669) 评论(1) 推荐(0) 编辑
摘要: 语音变速不变调,即语音时长规整,是指不改变原说话人的音调及语义信息,只改变说话人的语速。语音变速不变调算法有三大类:时域法、频域法、参量法,如表2-1所示。表2-1 变速不变调算法分类时域法频域法参量法剪贴法LSEE-MSTFTM相位声码器SOLA、SOLA-FS正弦模型TD-PSOLA时域法包括:... 阅读全文
posted @ 2013-08-27 12:35 WELEN 阅读(2968) 评论(0) 推荐(0) 编辑
摘要: 自然语音的产生可以简化为图2-1模型,激励源出来的声门波信号与声道模型进行卷积,最后通过嘴唇辐射模型产生语音。其中,激励源决定说话人的基频的大小,即音调的高低。声道模型反映“润色”的频谱信息,具体的讲,共振峰决定了语义信息,谐波分布决定了音色,单位时间的音节数决定了语速。图2-1 语音产生模型下面将根据语音产生模型来阐述变速变调的基本原理。变速变调的改变可以包括变速不变调和变调不变速两个部分。语音变速不变调是指保持音调和语义保持不变,语速变快或变慢[28]。该过程表现为语谱图在时间轴上如手风琴般压缩或者扩展。那也就是说,基频值几乎不变,对应于音调不变;整个时间过程被压缩或者扩展,声门周期的数目 阅读全文
posted @ 2013-08-27 12:34 WELEN 阅读(997) 评论(0) 推荐(0) 编辑
摘要: 1.GMM(guassian mixture model) 混合高斯模型,顾名思义,就是用多个带有权重的高斯密度函数来描述数据的分布情况。理论上来说,高斯分量越多,极值点越多,混合高斯密度函数可以逼近任意概率密度函数,刻画模型越精确,需要的训练数据也就越多。2.GMM模型初始化: 即模型参数的初始化,一般采用kmeans或者LBG算法。模型初始化值对模型后期的收敛有极大影响,特别是训练模型的数据太少或者不充分时,现象尤其突出,会造成模型不收敛,甚至训练参数出现NAN。 解决办法:1.一方面扩大误差范围,这样会造成训练好的模型区分度不好。 2.LGB算法或者Kmeans减小胞腔... 阅读全文
posted @ 2013-08-27 12:33 WELEN 阅读(5831) 评论(3) 推荐(1) 编辑