08_音频录制02_编程
通过编程录音
开发录音功能的主要步骤是:
- 注册设备
- 获取输入格式对象
- 打开设备
- 采集数据
- 释放资源
需要用到的FFmpeg库有4个。
extern "C" {
// 设备相关API
#include <libavdevice/avdevice.h>
// 格式相关API
#include <libavformat/avformat.h>
// 工具相关API(比如错误处理)
#include <libavutil/avutil.h>
// 编码相关API
#include <libavcodec/avcodec.h>
}
权限申请
在Mac平台使用录音设备需要申请权限,不然会出现闪退的情况:
-
项目中新增Info.plist文件
-
需要在Info.plist中添加麦克风的使用说明,申请麦克风的使用权限
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
<key>NSMicrophoneUsageDescription</key>
<string>申请使用麦克风进行录音</string>
</dict>
</plist>
-
在pro文件中添加Info.plist文件的路径
-
使用Debug模式运行程序
如果使用Debug模式运行程序还是会出现闪退的情况,那么需要把之前编译产生的文件夹删掉,如下图:
注册设备
在整个程序的运行过程中,只需要执行1次注册设备的代码。
// 初始化libavdevice并注册所有输入和输出设备
avdevice_register_all();
获取输入格式对象
宏定义
Windows和Mac环境的格式名称、设备名称都是不同的,所以使用条件编译实现跨平台。
// 格式名称、设备名称目前暂时使用宏定义固定死
#ifdef Q_OS_WIN
// 格式名称
#define FMT_NAME "dshow"
// 设备名称
#define DEVICE_NAME "audio=麦克风阵列 (Realtek(R) Audio)"
#else
#define FMT_NAME "avfoundation"
#define DEVICE_NAME ":0"
#endif
核心代码
根据格式名称获取输入格式对象,后面需要利用输入格式对象打开设备。
AVInputFormat *fmt = av_find_input_format(FMT_NAME);
if (!fmt) {
// 如果找不到输入格式
qDebug() << "找不到输入格式" << FMT_NAME;
return;
}
打开设备
// 格式上下文(后面通过格式上下文操作设备)
AVFormatContext *ctx = nullptr;
// 打开设备
int ret = avformat_open_input(&ctx, DEVICE_NAME, fmt, nullptr);
// 如果打开设备失败
if (ret < 0) {
char errbuf[1024] = {0};
// 根据函数返回的错误码获取错误信息
av_strerror(ret, errbuf, sizeof (errbuf));
qDebug() << "打开设备失败" << errbuf;
return;
}
采集数据
宏定义
#ifdef Q_OS_WIN
// PCM文件的文件名
#define FILENAME "../out.pcm"
#else
#define FILENAME "../out.pcm"
#endif
核心代码
#include <QFile>
// 文件
QFile file(FILENAME);
// WriteOnly:只写模式。如果文件不存在,就创建文件;如果文件存在,就删除文件内容
if (!file.open(QFile::WriteOnly)) {
qDebug() << "文件打开失败" << FILENAME;
// 关闭设备
avformat_close_input(&ctx);
return;
}
// 暂时假定只采集50个数据包
int count = 50;
// 数据包
AVPacket *pkt = av_packet_alloc();
while (count-- > 0) {
// 从设备中采集数据,返回值为0,代表采集数据成功
ret = av_read_frame(ctx, pkt);
if (ret == 0) { // 读取成功
// 将数据写入文件
file.write((const char *) pkt->data, pkt->size);
} else { // 其他错误
char errbuf[1024];
av_strerror(ret, errbuf, sizeof (errbuf));
qDebug() << "av_read_frame error" << errbuf << ret;
break;
}
}
释放资源
// 关闭文件
file.close();
// 释放资源
av_packet_free(&pkt);
// 关闭设备
avformat_close_input(&ctx);
想要了解每一个函数的具体作用,可以查询:官方API文档。
获取录音设备的相关参数
// 从AVFormatContext中获取录音设备的相关参数
void showSpec(AVFormatContext *ctx) {
// 获取输入流
AVStream *stream = ctx->streams[0];
// 获取音频参数
AVCodecParameters *params = stream->codecpar;
// 声道数
qDebug() << "声道数:" << params->channels;
// 采样率
qDebug() << "采样率:" << params->sample_rate;
// 采样格式
qDebug() << "采样格式:" << params->format;
// 每一个样本的一个声道占用多少个字节
qDebug() << "采样格式,一个声道占用:" << av_get_bytes_per_sample((AVSampleFormat) params->format)<<"字节";
// 编码ID(可以看出采样格式)
qDebug() << "编码ID:" << params->codec_id;
// 每一个样本的一个声道占用多少位(这个函数需要用到avcodec库)
qDebug() << "采样格式:" << av_get_bits_per_sample(params->codec_id)<<"位";
}
其中采样格式params->format
来获取,有时获取的值是-1,例如,我在我的mac上面这个值就是-1,这个有可能是ffmpeg版本的原因,那么我还可以使用params->codec_id
来获取采样格式。
多线程
录音属于耗时操作,为了避免阻塞主线程,最好在子线程中进行录音操作。这里创建了一个继承自QThread的线程类,线程一旦启动(start),就会自动调用run函数。
AudioThread.h
#include <QThread>
class AudioThread : public QThread {
Q_OBJECT
private:
void run();
public:
explicit AudioThread(QObject *parent = nullptr);
~AudioThread();
};
AudioThread.cpp
AudioThread::AudioThread(QObject *parent,
AVInputFormat *fmt,
const char *deviceName)
: QThread(parent), _fmt(fmt), _deviceName(deviceName) {
// 在线程结束时自动回收线程的内存
connect(this, &AudioThread::finished,
this, &AudioThread::deleteLater);
}
AudioThread::~AudioThread() {
// 线程对象的内存回收时,正常结束线程
requestInterruption();
quit();
wait();
}
void AudioThread::run() {
// 录音操作
// ...
}
开启线程
AudioThread *audioThread = new AudioThread(this);
audioThread->start();
结束线程
// 外部调用线程的requestInterruption,请求结束线程
audioThread->requestInterruption();
// 线程内部的逻辑
void AudioThread::run() {
// 可以通过isInterruptionRequested判断是否要结束线程
// 当调用过线程的requestInterruption时,isInterruptionRequested返回值就为true,否则为false
while (!isInterruptionRequested()) {
// ...
}
}
改造录音代码
// 数据包
AVPacket *pkt = av_packet_alloc();
while (!isInterruptionRequested()) {
// 从设备中采集数据,返回值为0,代表采集数据成功
ret = av_read_frame(ctx, pkt);
if (ret == 0) { // 读取成功
// 将数据写入文件
file.write((const char *) pkt->data, pkt->size);
} else { // 其他错误
char errbuf[1024];
av_strerror(ret, errbuf, sizeof (errbuf));
qDebug() << "av_read_frame error" << errbuf << ret;
break;
}
}
通过命令播放PCM
// 查看pcm文件
ffprobe -ar 44100 -ac 2 -f f32le out.pcm
// 播放pcm文件
ffplay -ar 44100 -ac 2 -f f32le out.pcm
-ar:采样率
-ac:声道数
-f:表示pcm格式,sample_fmts + le(小端)或者 be(大端)
sample_fmts可以通过ffplay -sample_fmts来查询
其中电脑里支持-f的值可以通过下面命令查询格式
// win
ffmpeg -formats | findstr PCM
//mac
ffmpeg -formats | grep PCM
虽然知道了电脑里支持的pcm格式,但是支持的那么多,我们用那个呢?其实还有一种方法可以确定:就是使用ffmpeg
命令录制一个wav
文件
// win
ffmpeg -f dshow -i audio="麦克风 (Realtek(R) Audio)" out.wav
// mac
ffmpeg -f avfoundation -i :0 out.wav
我们只需要看Input
这里,因为Input
是录音设备的一些信息,而Output
是wav
文件输出的信息,所以可以从Input
这里看到pcm格式是f32le
注意:如果pcm格式设置的不对,播放pcm文件就会出现嗤嗤的声音