流媒体 5——MPEG声音

1. 听觉系统的感知特性：

　　MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性，而是利用人的听觉系统的特性来达到压缩声音数据的目的，这种压缩编码称为感知声音编码。　

许多科学工作者一直在研究听觉系统对声音的感知特性，下面介绍已经用在MPEG Audio压缩编码算法中的三个特性：响度、音高和掩蔽效应。

1.1. 对响度的感知

　　声音的响度就是声音的强弱。在物理上，声音的响度使用客观测量单位来度量，即dyn/cm²(达因/平方厘米)(声压)或W/cm²(瓦特/平方厘米)(声强)。在心理上，主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两种概念，但是它们之间又有一定的联系。

　　当声音弱到人的耳朵刚刚可以听见时，我们称此时的声音强度为“听阈”。例如，1 kHz纯音的声强达到10^-16w/cm²(定义成零dB声强级)时，人耳刚能听到，此时的主观响度级定为零方。实验表明，听阈是随频率变化的。测出的“听阈—频率”曲线如图所示。图中最靠下面的一根曲线叫做“零方等响度级”曲线，也称“绝对听阈”曲线，即在安静环境中，能被人耳听到的纯音的最小值。

　　另一种极端的情况是声音强到使人耳感到疼痛。实验表明，如果频率为1 kHz的纯音的声强级达到120 dB左右时，人的耳朵就感到疼痛，这个阈值称为“痛阈”。对不同的频率进行测量，可以得到“痛阈—频率”曲线，如图中最靠上面所示的一根曲线。这条曲线也就是120方等响度级曲线。在“听阈—频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。这个范围内的等响度级曲线也是用同样的方法测量出来的。由图9-01可以看出，1 kHz的10 dB的声音和200 Hz的30 dB的声音，在人耳听起来具有相同的响度。图说明人耳对不同频率的敏感程度差别很大，其中对2 kHz～4 kHz范围的信号最为敏感，幅度很低的信号都能被人耳听到。而在低频区和高频区，能被人耳听到的信号幅度要高得多。

“听阈—频率”曲线

　　

1.2. 对音高的感知

　　客观上用频率来表示声音的音高，其单位是Hz。而主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是

　　　　　　　　　　
　　其中的单位为Hz，这也是两个既不相同又有联系的单位。

　　人耳对响度的感觉有一个范围，即从听阈到痛阈。同样，人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20 Hz，最高频率约18000 Hz。正如测量响度时是以1 kHz纯音为基准一样，在测量音高时则以40 dB声强为基准，并且同样由主观感觉来确定。测量主观音高时，让实验者听两个声强级为40 dB的纯音，固定其中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的音高为前者的两倍，就标定这两个声音的音高差为两倍。实验表明，音高与频率之间也不是线性关系。测出的“音高—频率”曲线如图所示。

“音高—频率”曲线

1.3. 掩蔽效应

　　一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone)，后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。

(1). 频域掩蔽

　　一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽(simultaneous masking)。如图所示，一个声强为60 dB、频率为1000 Hz的纯音，另外还有一个1100 Hz的纯音，前者比后者高18 dB，在这种情况下我们的耳朵就只能听到那个1000 Hz的强音。如果有一个1000 Hz的纯音和一个声强比它低18 dB的2000 Hz的纯音，那么我们的耳朵将会同时听到这两个声音。要想让2000 Hz的纯音也听不到，则需要把它降到比1000 Hz的纯音低45 dB。一般来说，弱纯音离强纯音越近就越容易被掩蔽。

声强为60 dB、频率为1000 Hz纯音的掩蔽效应

　　在图中的一组曲线分别表示频率为250 Hz、1 kHz、4 kHz和8 kHz纯音的掩蔽效应，它们的声强均为60 dB。从图中可以看到：①在250 Hz、1 kHz、4 kHz和8 kHz纯音附近，对其他纯音的掩蔽效果最明显，②低频纯音可以有效地掩蔽高频纯音，但高频纯音对低频纯音的掩蔽作用则不明显。

不同纯音的掩蔽效应曲线

　

　　由于声音频率与掩蔽曲线不是线性关系，为从感知上来统一度量声音频率，引入了“临界频带(critical band)”的概念。通常认为，在20Hz到16 kHz范围内有24个临界频带，如表所示。临界频带的单位叫Bark(巴克)，

1 Bark = 一个临界频带的宽度

(频率)< 500 Hz的情况下, 1 Bark » /100

(频率) > 500 Hz的情况下, 1Bark » 9 + 4log(/1000)

　　以上我们讨论了响度、音高和掩蔽效应，尤其是人的主观感觉。其中掩蔽效应尤为重要，它是心理声学模型的基础。

临界频带

临界

频率 (Hz)

临界

频率 (Hz)

频带

低端

高端

宽度

频带

低端

高端

宽度

0

0

100

100

13

2000

2320

320

1

100

200

100

14

2320

2700

380

2

200

300

100

15

2700

3150

450

3

300

400

100

16

3150

3700

550

4

400

510

110

17

3700

4400

700

5

510

630

120

18

4400

5300

900

6

630

770

140

19

5300

6400

1100

7

770

920

150

20

6400

7700

1300

8

920

1080

160

21

7700

9500

1800

9

1080

1270

190

22

9500

12000

2500

10

1270

1480

210

23

12000

15500

3500

11

1480

1720

240

24

15500

22050

6550

12

1720

2000

280

　

　

　

　

(2). 时域掩蔽

　　除了同时发出的声音之间有掩蔽现象之外，在时间上相邻的声音之间也有掩蔽现象，并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking)，如图所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说，超前掩蔽很短，只有大约5～20 ms，而滞后掩蔽可以持续50～200 ms。这个区别也是很容易理解的。

时域掩蔽

2. 感知声音编码：

2.1 感知子带编码

　　　　　　　输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带

　　　　 每个子带信号对应一个“编码器”,然后根据心理声学模型对每个子带信号进行量化和编码,输出量化信息和经过编码的子带样本

　　　　 通过“多路复合器”把每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream)

　　　　 解码过程与编码过程相反

2.2 杜比数字

　　 前称为Dolby AC-3,简称AC-3
　　　　 1992年杜比实验室开发的数字声音编码系统,采用了感知编码技术

　　 多声道环绕声格式,现已作为国际标准

　　　　 杜比数字可提供6个声音通道,称为5.1声道,即左、中、右、后左、后右5个主声道和1个低音加强声道

　　　　 声音数据的位速率通常为64~448 kbps
　　　　　　 立体声的位速率通常为192 kbps
　　　　　　 5.1声道的位速率通常为384 kbps,但可高达640 kbps

　　 已用在DVD影视盘、DTV(数字电视)、HDTV和其他娱乐产品中

3. MPEG-1 Audio

4. MPEG-2

4.1. MPEG-2 声音压缩标准

 MPEG-2标准委员会定义了两种声音数据压缩标准

　　 MPEG-2 Audio (ISO/IEC 13818-3)[12]

　　　　 也称MPEG-2 Multichannel Audio (多通道声音)

　　　　 因为它与MPEG-1 Audio是兼容的,所以又称为MPEG- 2 BC (Backward Compatible)标准

　　 MPEG-2 AAC (ISO/IEC 13818-7)[22]

　　　　 因为它与MPEG-1 Audio格式不兼容,因此通常把它称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible) 标准　

4.2. MPEG-2 Audio

　　MPEG-2 Audio和MPEG-1 Audio标准都使用相同种类的编译码器，层-1, -2和-3的结构也相同。MPEG-2声音标准与MPEG-1标准相比，MPEG-2做了如下扩充：

　　①增加了16 kHz, 22.05 kHz和24 kHz采样频率，

　　②扩展了编码器的输出速率范围，由32～384 kb/s扩展到8～640 kb/s，

　　③增加了声道数，支持5.1声道和7.1声道的环绕声。此外MPEG-2还支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码。

MPEG-1和-2的声音数据规格

参数名称	Linear PCM	Dolby AC-3	MPEG-2 Audio	MPEG-1 Audio
采用频率	48/96 kHz	32/44.1/48 kHz	16/22.05/24/ 32/44.1/48 kHz	32/44.1/48 kHz
样本精度 (每个样本的比特数)	16/20/24	压缩(16 bits)	压缩(16 bits)	16
最大数据传输率	6.144 Mb/s	448 kb/s	8～640 kb/s	32～448 kb/s
最大声道数	8	5.1	5.1/7.1	2

　　MPEG-2 Audio的“5.1环绕声”也称为“3/2-立体声加LFE”，其中的“.1”就是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、右)，后面可有2个环绕声喇叭声道，LFE(low frequency effects)是低频音效的加强声道，如图所示。7.1声道环绕立体声与5.1类似，如图9-19(b)所示。

4.3. MPEG-2 AAC

5. MPEG-4 Audio

　　 包罗万象的声音对象编码标准(ISO-IEC 14496-3) ,

　　　　从话音、声音到合成语音的编码。企图达到的数据速率和应用目标见图

　　 该标准为每个声道规定的数据速率为2~64 kbps, 并为此定义了三种类型的编码器,称为“编码工具 (coding tool)”

　　　　 在数据速率为2~6 kbps范围内,可使用参数编码 (parametric coding),声音信号的采样频率使用8 kHz

　　　　 在数据速率为6~24 kbps的范围内,可使用码激励线性预测技术(code excited linear prediction,CELP),声音信号的采样频率使用8kHz或16 kHz

　　　　 在数据速率为16~64 kbps范围内,可使用时间/频率编码 (time/frequency coding)或称为“基于变换的普通声音编码 (transform-based general audio coding)”技术,如用MPEG-2 AAC经过改进的MPEG-4 AAC,支持8~96 kHz的声音信号采样频率

posted @ 2015-06-25 16:53 zxqstrong 阅读(883) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

strong

每天看一点，每天学一点

流媒体 5——MPEG声音

公告

临界	频率 (Hz)			临界	频率 (Hz)
频带	低端	高端	宽度	频带	低端	高端	宽度
0	0	100	100	13	2000	2320	320
1	100	200	100	14	2320	2700	380
2	200	300	100	15	2700	3150	450
3	300	400	100	16	3150	3700	550
4	400	510	110	17	3700	4400	700
5	510	630	120	18	4400	5300	900
6	630	770	140	19	5300	6400	1100
7	770	920	150	20	6400	7700	1300
8	920	1080	160	21	7700	9500	1800
9	1080	1270	190	22	9500	12000	2500
10	1270	1480	210	23	12000	15500	3500
11	1480	1720	240	24	15500	22050	6550
12	1720	2000	280