音频处理中的尺度--Bark尺度与Mel尺度
由于人耳对声音的感知(如:频率、音调)是非线性的,为了对声音的感知进行度量,产生了一系列的尺度(如:十二平均律),这里重点说下Bark尺度与Mel尺度。刚开始的时候,我自己也没弄明白这两个尺度的区别。后来才逐渐的明白他们的思考出发点,这里简单分享出来。
Bark(巴克)频率尺度是以Hz为单位,把频率映射到心理声学的24个临界频带上,第25个临界频带占据约:16K~20kHz的频率,1个临界频带的宽度等于一个Bark,简单的说,Bark尺度是把物理频率转换到心理声学的频率。Bark尺度频率的中心频率与临界带宽边界频率如下表所示:
临界频带 | 频率/Hz | ||
Bark频带 | 中心频率 | 下界频率 | 上界频率 |
1 | 50 | 0 | 100 |
2 | 150 | 100 | 200 |
3 | 250 | 200 | 300 |
4 | 350 | 300 | 400 |
5 | 450 | 400 | 510 |
6 | 570 | 510 | 630 |
7 | 700 | 630 | 770 |
8 | 840 | 770 | 920 |
9 | 1000 | 920 | 1080 |
10 | 1170 | 1080 | 1270 |
11 | 1370 | 1270 | 1480 |
12 | 1600 | 1480 | 1720 |
13 | 1850 | 1720 | 2000 |
14 | 2150 | 2000 | 2320 |
15 | 2500 | 2320 | 2700 |
16 | 2900 | 2700 | 3150 |
17 | 3400 | 3150 | 3700 |
18 | 4000 | 3700 | 4400 |
19 | 4800 | 4400 | 5300 |
20 | 5800 | 5300 | 6400 |
21 | 7000 | 6400 | 7700 |
22 | 8500 | 7700 | 9500 |
23 | 10500 | 9500 | 12000 |
24 | 13500 | 12000 | 15500 |
25 | 18775 | 15500 | 22050 |
我发现有不少式子试图对上表进行建模,用的比较多的一个式子是(Zwicker,Terhardt 1980):
\[B = 13{\tan ^{ - 1}}\left( {\frac{{0.76f}}{{1000}}} \right) + 3.5{\tan ^{ - 1}}{\left( {\frac{f}{{7500}}} \right)^2}\]
上式中频率f代表中心频率,我把上面的式子在Matlab中代入进行计算,发现前5个Bark频带与计算出来的出入比较大,尚不知道这是什么原因。
Mel频率尺度也是一种频率映射感知模型,它描述的是音高感知的非线性映射,函数表示如下:
\[m = 1127.01048{\log _e}\left( {1 + \frac{f}{{700}}} \right)\]
要注意的一点是,这里的频率f单位是1kHz,也就是说,1kHz是Mel频率与以赫兹为单位的真实频率之间的参考点(1kHz=1000mel),另一方面,Mel一词来源于音乐术语melody,是旋律的频率分量与与音高感知之间距离的度量。
本文来自于博主爱酷媒(icoolmedia),欢迎转载,转载请注明作者和出处!
QQ交流群:374737122
微信号:icoolmedia
QQ号:314138065