随笔 - 2146  文章 - 19 评论 - 11846 阅读 - 1267万


最近准备学习 DirectSound、DirectMusic、DirectShow, 但刚一接触就碰到了关于 Wave 文件的诸多问题, 只好先回头学学 Wave 文件.

Wave 文件的基础知识

经常见到这样的描述: 44100HZ 16bit stereo 或者 22050HZ 8bit mono 等等.

44100HZ 16bit stereo : 每秒钟有 44100 次采样, 采样数据用 16 位(2字节)记录, 双声道(立体声);
22050HZ 8bit mono : 每秒钟有 22050 次采样, 采样数据用 8 位(1字节)记录, 单声道;

当然也可以有 16bit 的单声道或 8bit 的立体声, 等等.

人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求. 所以 22050 的采样频率是常用的, 44100 已是 CD 音质, 超过 48000 的采样对人耳已经没有意义. 这和电影的每秒 24 帧图片的道理差不多.

每个采样数据记录的是振幅, 采样精度取决于储存空间的大小:
1 字节(也就是8bit) 只能记录 256 个数, 也就是只能对振幅做 256 种识别;
2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;
4 字节(也就是32bit) 能把振幅细化到 4294967296 种可能性, 实在是没必要了.

如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍.

这样我们就可以根据一个 wav 文件的大小、采样频率和采样大小估算出一个 wav 文件的长度; 譬如 "Windows XP 启动.wav" 的文件长度是 424,644 字节, 它是 "22050HZ / 16bit / 立体声" 格式(这可以从其 "属性->摘要" 里看到).
它的每秒的传输速率是 22050*16*2 = 705600(bit), 换算成字节是 705600/8 = 88200(字节);
424644(总字节数) / 88200(每秒字节数) ≈ 4.8145578(秒).

这还不够精确, 在标准的 PCM 格式的 WAVE 文件中还有 44 个字节是采样数据之外的内容, 应该去掉:
(424644-44) / (22050*16*2/8) ≈ 4.8140589(秒). 这比较精确了.

关于声音文件还有一个概念: "位速", 也有叫做比特率、取样率, 譬如上面文件的位速是 705.6kbps 或 705600bps, 其中的 b 是 bit, ps 是每秒的意思; 压缩的音频文件常常用位速来表示, 譬如达到 CD 音质的 mp3 是: 128kbps / 44100HZ.

Wave 文件的文件格式

微软的多媒体文件(wav、avi、tif 等)都有一个 RIFF 头, Wave 文件基本是这个样子:

RIFF 头
fmt 子块
data 子块


Wave 文件的编码方式有好多, 最常用最简单的就是 PCM 编码.

其他编码会包含更多的"块", 但至少会包含上面的块, PCM 编码只包含上面的块.

下面是 PCM 编码的祥表:

RIFF 头 ckid 4 "RIFF" 标识
cksize 4 文件大小; 这个大小不包括 ckid cksize 本身, 下面的子块大小也是这样
fccType 4 类型, 这里是 "WAVE" 标识
  24 fmt 子块 ckid 4 "fmt " 标识
cksize 4 块大小; PCM 编码这里是 16, 其他编码也不小于 16
wFormatTag 2 编码格式; 1 表示是 PCM 编码 
nChannels 2 声道数; 1 是单声道、2 是立体声
nSamplesPerSec 4 采样频率(每秒的样本数); 譬如 44100
nAvgBytesPerSec 4 传输速率 = 采样频率 * 每次采样大小, 单位是字节
nBlockAlign 2 每次采样的大小 = 采样精度 * 声道数 / 8(因单位是字节所以要/8);
这也是字节对齐的最小单位, 譬如 16bit 立体声在这里的值是 4 字节
wBitsPerSample 2 采样精度; 譬如 16bit 在这里的值就是 16
? data 子块 ckid 4 "data" 标识
cksize 4 块大小
采样数据 ? 双声道数据排列: 左右左右...; 8bit: 0-255, 16bit: -32768-32767


其他编码可能会包含的块有: 事实块(Fact)、提示块(Cue)、标签块(Label)、注释块(Note)、标签文本块(Labeled Text)、采样器块(Sampler)、乐器块(Instrument)、列表块(List)等等, 如果有 List 块, 它还会包含更多子块.

接下来要存取、播放、录制, 说来容易, 操作起来都挺麻烦.

posted on   万一  阅读(4152)  评论(7编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
历史上的今天:
2008-11-06 WinAPI 字符及字符串函数(15): CharNext、CharPrev
2008-11-06 WinAPI 字符及字符串函数(14): CharToOem、OemToChar
2008-11-06 WinAPI 字符及字符串函数(13): lstrcmp、lstrcmpi - 对比串
2008-11-06 获取汉字编码的几种方法 - 回复"外来天客"的问题


点击右上角即可分享
微信分享提示