音频处理实用AI工具
最近在做音频处理相关的工作,主要有以下几个好用的工具。
1. 语音转文字——whisper
这是一款由OpenAI开发的语音转文字工具,项目地址位于:openai/whisper.
这个工具是用来生成字幕的,现在的很多视频编辑软件也有“一键生成字幕”的功能。使用此工具需要提前安装好PyTorch和ffmpeg(做音视频的基本绕不开它),具体的安装过程大家可以参考使用文档,文档里写得比较详细。
在命令行中使用
基本使用方法如下:
whisper audio.mp3 --model medium
- audio.mp3是待处理的音频文件,whisper支持多种音频格式,例如flac, mp3, wav等。
--model
指定使用的模型,有tiny, base, small, medium, large五种,如果不指定此参数,则默认为small.
执行完成后你就能在当前目录下找到生成的字幕文件了。第一次使用时会从网上下载模型,需要点时间。
执行以下命令获取更多帮助:
whisper --help
作为Python库使用
使用示例如下:
import whisper # 导入whisper库
model = whisper.load_model("base") # 加载模型, 这里加载的是base模型
result = model.transcribe("audio.mp3") # 处理音频文件audio.mp3
print(result["text"]) # 得到处理后的文本
2. 人声与背景声分离——SpeeterGUI
如果一段音频里有人声,还有背景音乐,使用这个工具就可以将人声与背景音乐分离开。项目的地址位于:deezer/spleeter.
不过,更推荐大家使用基于此应用开发的图形界面工具SpeeterGUI:
下载地址位于https://makenweb.com/SpleeterGUI. 环境已经帮你配置好了,用起来非常方便。如果使用时报错,可以在这里找到常见问题的解答。
3. 传统音频处理工具
在实际使用中,还需要一些传统的音频处理工具,例如librosa
. 下面给出使用librosa
获取音频文件总时长的例子:
import librosa
n_second = librosa.get_duration(path='C:\\music.mp3')
其它用法还请大家自行查阅文档。