从视频到音频:使用VIT进行音频分类

就机器学习而言,音频本身是一个有广泛应用的完整的领域,包括语音识别、音乐分类和声音事件检测等等。传统上音频分类一直使用谱图分析和隐马尔可夫模型等方法,这些方法已被证明是有效的,但也有其局限性。近期VIT已经成为音频任务的一个有前途的替代品,OpenAI的Whisper就是一个很好的例子。

在本文中,我们将利用ViT - Vision Transformer的是一个Pytorch实现在音频分类数据集GTZAN数据集-音乐类型分类上训练它。

https://avoid.overfit.cn/post/1f4156a56139417d97745066c0b497ec

posted @ 2023-01-05 10:50  deephub  阅读(98)  评论(0编辑  收藏  举报