[Audio processing] 常见语音特征 —— LPC
共振峰产生的原理及其在音质上的体现,共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的(Resonant Physical Structure)。
无论是人声还是乐器,它们的声音特性都源自两个因素,一个是发声系统,如人的声带或乐器的振动簧片,另一个是共鸣系统。乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出,这样,这些区域就产生了这个乐器所特有的共振峰值,这些共振峰值同共鸣体的大小、形状的材料密切相关。由于一件乐器的结构是稳定的,因此在一件乐器发出的所有音调中,不论基频如何,都会表现出相同的共振峰值,只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中,同一乐器所发出的不同音调具有相同的音质。
在语音声学中,人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音,主要也是依靠它们的共振峰分布的位置
LPC即基于人发声机理的特征,在成人小孩识别、性别识别、说话人鉴别上有较好表现
具体步骤如下:
Step 1. 激励函数e(n)
Step 2. 使e(n)的平方最小
step 3. 将step 2中俩式子结合,有下列等式
step 4. 接下来的就是解方程组,经典解法有两种:一种是自相关法,一种是协方差法。
最后,输出作为计算结果LPC参数可以很好的表征共振峰频率和带宽,根据多项式零点与阶数关系,LPC参数的阶数大小与共振峰个数有如下关系P=2D+I,其中D为共振峰个数。由LPC参数表征的共振峰谱包络示意如下图,
女声LCP参数图:
男声LCP参数图:
其中P=11,横坐标为归一化频率,纵坐标为幅度响应,单位是dB。