什么是音频?
音频:表示声音或音乐。
音频本质上与我们讨论到现在的数字和文本是不同的。文本由可数的实体(文字)组成,我们可以数出文本中文字的数量。文本是数字数据的一个例子。相反,音频是不可数的。音频是随时间变化的实体,我们只能在每一时刻度量声音的密度。当我们讨论用计算机内存存储声音时,我们的意思是存储一个音频信号的密度,例如,每隔一段时间(一秒钟、一小时)来自麦克风的信号。
音频是模拟数据的例子。即使我们能够在一段时间度量所有的值,也不能把它全部存在计算机内存中,因为可能需要无限数量的内存单元。下图显示了一个模拟信号随时间变化的本质,如音频。
因此对于音频的存储、处理,一般都有如下几个步骤:
1、采样
由于实际的音频是个模拟量,我们不能记录一段间隔的音频信号的所有值,但是可以记录其中的一些。因此可以通过采样的方式,在模拟信号上选择数量有限的点来度量它们的值并记录下来。下图显示了从这样的信号上选择10个样本,我们可以记录这些值来表现模拟信号。
采样率如何配置?我们每秒钟需要多少样本才能还原出原始信号的副本?
样本数量依赖于模拟信号中变化的最大数量。如果信号是平坦的,则需要很少的样本,如果信号变化剧烈,则需要较多的样本。每秒40 000个样本的采样率对音频信号来说是足够好的。
2、量化
假设每一秒的样本存储40 000个真实的值。如果这40 000个值全部为浮点数,那么当采样的时间一长带来的将是一组庞大的数据量,但是如果我们将采样得到的数据,做一个简单的量化,例如四舍五入、向下取整等,一方面可以极大可能的减少存储数据的空间,另一方面又不会对采样的值造成较大的偏差。
3、编码
音频编码的方式有很多:MPEG、WAV、AAC、APE、Ogg、FLAC等