音频处理实用AI工具

最近在做音频处理相关的工作,主要有以下几个好用的工具。

 

1. 语音转文字——whisper

这是一款由OpenAI开发的语音转文字工具,项目地址位于:openai/whisper.

这个工具是用来生成字幕的,现在的很多视频编辑软件也有“一键生成字幕”的功能。使用此工具需要提前安装好PyTorchffmpeg(做音视频的基本绕不开它),具体的安装过程大家可以参考使用文档,文档里写得比较详细。

在命令行中使用

基本使用方法如下:

whisper audio.mp3 --model medium
  • audio.mp3是待处理的音频文件,whisper支持多种音频格式,例如flac, mp3, wav等。
  • --model指定使用的模型,有tiny, base, small, medium, large五种,如果不指定此参数,则默认为small.

执行完成后你就能在当前目录下找到生成的字幕文件了。第一次使用时会从网上下载模型,需要点时间。

执行以下命令获取更多帮助:

whisper --help

作为Python库使用

使用示例如下:

import whisper  # 导入whisper库


model = whisper.load_model("base")  # 加载模型, 这里加载的是base模型
result = model.transcribe("audio.mp3")  # 处理音频文件audio.mp3
print(result["text"])  # 得到处理后的文本

 

2. 人声与背景声分离——SpeeterGUI

如果一段音频里有人声,还有背景音乐,使用这个工具就可以将人声与背景音乐分离开。项目的地址位于:deezer/spleeter.

不过,更推荐大家使用基于此应用开发的图形界面工具SpeeterGUI:

下载地址位于https://makenweb.com/SpleeterGUI. 环境已经帮你配置好了,用起来非常方便。如果使用时报错,可以在这里找到常见问题的解答。

 

3. 传统音频处理工具

在实际使用中,还需要一些传统的音频处理工具,例如librosa. 下面给出使用librosa获取音频文件总时长的例子:

import librosa

n_second = librosa.get_duration(path='C:\\music.mp3')

其它用法还请大家自行查阅文档。

posted @ 2023-10-16 14:48  overxus  阅读(146)  评论(0编辑  收藏  举报