经典的深度学习网络AlexNet使用数据扩充(Data Augmentation)的方式扩大数据集,取得较好的分类效果。在深度学习的图像领域中,通过平移、 翻转、加噪等方法进行数据扩充。但是,在音频(Audio)领域中,如何进行数据扩充呢?
欢迎加入我的QQ群`923414804`与我一起学习,群里有我学习过程中整理的大量学习资料。加群即可免费获取
Audio
音频的数据扩充主要有以下四种方式:
- 音频剪裁(Clip)
- 音频旋转(Roll)
- 音频调音(Tune)
- 音频加噪(Noise)
音频处理基于librosa音频库;矩阵操作基于scipy和numpy科学计算库。
以下是Python的实现方式:
音频剪裁
音频旋转
音频调音
音频加噪,注意:在添加随机噪声时,保留0值,否则刺耳难忍!
OK, that's all! Enjoy it!
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步