利用Directsound编程实现实时混音
在游戏开发中比较常用的音效素材都是比较短的,所以一般常用的API是playsound()函数,比如我们要在游戏背景中播放一个test.wav音效素材,只要简单的调用下面的函数即可
如此简单,事实上我们看到,国内的游戏大致上都可以用PlaySound()搞定。但是既然是简单,从功能上就要受限了,如果遇到复杂的场景就没法用 playsound实现了,比如在场景中既有开门的声音,又有砍人的声音,你如果用playsound就没法同时听到两种声音,只能是一个声音完了再听到 另外一个声音,这时,就需要混音了。
在网络视频会议开发中,如果不同的客户端同时发言,如何将多个不同端点的话音数据经网络传输到达某一个端点,经该端点的Wave设备输出,能同时听到多个人的话音,从而实现局域网络中多方的话音交谈,这也需要用到混音技术。
在网络上实现话音交谈,特别强调实时性,要尽量保证话音的平滑、连续,因此为了保证话音数据连续,减少话音数据存储带来的延时,在具体实现中,话音的录制和播放都不采用文件的形式,录制和播放的话音数据都存在缓冲区中。在Windows系 统中,一般情况下,高层Wave接口函数无法直接播放缓冲区中的话音数据,而必须用底层函数来实现,常用的是Windows API中的Wave函数。将Wave数据在Wave设备上输出使用的是WaveOutWrite函数,但是该函数不支持多路Wave数据的同时播放,为了 能达到多路Wave数据同时播放的效果,对缓冲区中多路Wave数据进行必要的预处理后,再提交给Wave输出设备播放,实现原理如图1所示。
这种混音的方式效果跟你采用的算法有很大关系,但是如果我们采用Directsound进行混音,就简单多了,我们只需要将我们要混音的内容传给它,Directsound会在内部自动进行混音的。下面我们就进入Directsound混音编程。
在了解Directsound如何混音前我们先来看看DirectSound是如何播放一段wave音频的。
这里只是简单的介绍一下播放声音的步骤。
第一步,创建一个设备对象。
在你的代码中你可以通过调用DirectSoundCreat8函数来创建一个支持IDirectSound8接口的对象,这个对象通常代表缺省的播放设备。当然你可以枚举可用的设备,然后将设备的GUID传递给DirectSoundCreat8函数。
注意,Directsound虽然基于COM,但是你并不需要初始化com库,这些Directsound都帮你做好了,当然,如果你使用DMOs特技,你就要自己初始化com库了,切记。
第二步,创建一个辅助Buffer,也叫后备缓冲区
你可以通过IDirectSound8::CreateSoundBuffer来创建buffer对象,这个对象主要用来获取处理数据,这种 buffer称作辅助缓冲区,以和主缓冲区区别开来,Direcsound通过把几个后备缓冲区的声音混合到主缓冲区中,然后输出到声音输出设备上,达到 混音的效果。
第三步,获取PCM类型的数据
将WAV文件或者其他资源的数据读取到缓冲区中。
第四步,将数据读取到缓冲区
你可以通过 IDirectSoundBuffer8::Lock.方法来准备一个辅助缓冲区来进行写操作,通常这个方法返回一个内存地址,见数据从你的私人buffer中复制到这个地址中,然后调用IDirectSoundBuffer8::Unlock.
第五步,播放缓冲区中的数据
你可以通过IDirectSoundBuffer8::Play方法来播放缓冲区中的音频数据,你可以通过 IDirectSoundBuffer8::Stop来暂停播放数据,你可以反复的莱停止,播放,音频数据,如果你同时创建了几个buffer,那么你就 可以同时来播放这些数据,这些声音会自动进行混音的。
看到了吧,Directsound混音很简单,我们只要在一个设备上创建几个辅助的缓冲区,然后将数据读取到缓冲区中,同时的播放,Directsound就会自动在主缓冲区自动混音的。至于同时可以播放几个辅助缓冲区则有硬件设备的性能决定。
在WDM驱动模式下,混音的工作由核心混音器来完成,不同的辅助缓冲区可能具有不同的WAV格式(例如,不同的采样频率),在必要的时候,辅助缓冲区的格式要转换成主缓冲区,或者核心混音器的格式。
在VXD驱动模式下,如果你的辅助缓冲区都采用相同的音频格式,并且硬件的音频格式也和你的音频格式匹配,此时,混音器不用作任何的转换。你的应用程序 可以创建一个主缓冲区,然后通过IDirectSoundBuffer8::SetFormat来设置硬件的输出格式。要注意,只有你的协作度一定要是 Priority Cooperative Level.,并且,一定要创建辅助缓冲区前设置主缓冲区,DirectSound会将你的设置保存下来。
在WDM模式下,对主缓冲区的的设置没有作用,因为主缓冲区的格式是由内核混音器来决定的。
PlaySound("test.wav",NULL,SND_FILENAME|SND_ASYNC); |
如此简单,事实上我们看到,国内的游戏大致上都可以用PlaySound()搞定。但是既然是简单,从功能上就要受限了,如果遇到复杂的场景就没法用 playsound实现了,比如在场景中既有开门的声音,又有砍人的声音,你如果用playsound就没法同时听到两种声音,只能是一个声音完了再听到 另外一个声音,这时,就需要混音了。
在网络视频会议开发中,如果不同的客户端同时发言,如何将多个不同端点的话音数据经网络传输到达某一个端点,经该端点的Wave设备输出,能同时听到多个人的话音,从而实现局域网络中多方的话音交谈,这也需要用到混音技术。
在网络上实现话音交谈,特别强调实时性,要尽量保证话音的平滑、连续,因此为了保证话音数据连续,减少话音数据存储带来的延时,在具体实现中,话音的录制和播放都不采用文件的形式,录制和播放的话音数据都存在缓冲区中。在Windows系 统中,一般情况下,高层Wave接口函数无法直接播放缓冲区中的话音数据,而必须用底层函数来实现,常用的是Windows API中的Wave函数。将Wave数据在Wave设备上输出使用的是WaveOutWrite函数,但是该函数不支持多路Wave数据的同时播放,为了 能达到多路Wave数据同时播放的效果,对缓冲区中多路Wave数据进行必要的预处理后,再提交给Wave输出设备播放,实现原理如图1所示。
图1 多路Wave混音的实现原理 |
这种混音的方式效果跟你采用的算法有很大关系,但是如果我们采用Directsound进行混音,就简单多了,我们只需要将我们要混音的内容传给它,Directsound会在内部自动进行混音的。下面我们就进入Directsound混音编程。
在了解Directsound如何混音前我们先来看看DirectSound是如何播放一段wave音频的。
这里只是简单的介绍一下播放声音的步骤。
第一步,创建一个设备对象。
在你的代码中你可以通过调用DirectSoundCreat8函数来创建一个支持IDirectSound8接口的对象,这个对象通常代表缺省的播放设备。当然你可以枚举可用的设备,然后将设备的GUID传递给DirectSoundCreat8函数。
注意,Directsound虽然基于COM,但是你并不需要初始化com库,这些Directsound都帮你做好了,当然,如果你使用DMOs特技,你就要自己初始化com库了,切记。
第二步,创建一个辅助Buffer,也叫后备缓冲区
你可以通过IDirectSound8::CreateSoundBuffer来创建buffer对象,这个对象主要用来获取处理数据,这种 buffer称作辅助缓冲区,以和主缓冲区区别开来,Direcsound通过把几个后备缓冲区的声音混合到主缓冲区中,然后输出到声音输出设备上,达到 混音的效果。
第三步,获取PCM类型的数据
将WAV文件或者其他资源的数据读取到缓冲区中。
第四步,将数据读取到缓冲区
你可以通过 IDirectSoundBuffer8::Lock.方法来准备一个辅助缓冲区来进行写操作,通常这个方法返回一个内存地址,见数据从你的私人buffer中复制到这个地址中,然后调用IDirectSoundBuffer8::Unlock.
第五步,播放缓冲区中的数据
你可以通过IDirectSoundBuffer8::Play方法来播放缓冲区中的音频数据,你可以通过 IDirectSoundBuffer8::Stop来暂停播放数据,你可以反复的莱停止,播放,音频数据,如果你同时创建了几个buffer,那么你就 可以同时来播放这些数据,这些声音会自动进行混音的。
看到了吧,Directsound混音很简单,我们只要在一个设备上创建几个辅助的缓冲区,然后将数据读取到缓冲区中,同时的播放,Directsound就会自动在主缓冲区自动混音的。至于同时可以播放几个辅助缓冲区则有硬件设备的性能决定。
在WDM驱动模式下,混音的工作由核心混音器来完成,不同的辅助缓冲区可能具有不同的WAV格式(例如,不同的采样频率),在必要的时候,辅助缓冲区的格式要转换成主缓冲区,或者核心混音器的格式。
在VXD驱动模式下,如果你的辅助缓冲区都采用相同的音频格式,并且硬件的音频格式也和你的音频格式匹配,此时,混音器不用作任何的转换。你的应用程序 可以创建一个主缓冲区,然后通过IDirectSoundBuffer8::SetFormat来设置硬件的输出格式。要注意,只有你的协作度一定要是 Priority Cooperative Level.,并且,一定要创建辅助缓冲区前设置主缓冲区,DirectSound会将你的设置保存下来。
在WDM模式下,对主缓冲区的的设置没有作用,因为主缓冲区的格式是由内核混音器来决定的。