1119
基于tensorflow的音频分类
1.数据集的选择:
Google AudioSet(被分成了三部分:均衡的训练集、不均衡的训练集以及评估集),它是基于有标签的 YouTube 视频片段,可以以两种格式下载:
-
每一个视频片段都有 CSV 文件描述,包括 YouTube 视频 ID、起始时间和结束时间、以及一个或多个标签,(什么是CSV格式文件?)
-
提取出的音频特征以 TensorFlow Record 文件的形式被存。(什么是TensorFlow Record?什么用?)
- note:这些音频特征与YouTube-8M 模型是兼容的,也提供了 TensorFlow VGGish 模型作为特征提取器!可以进行选择!
2.训练模型:
note:YouTube8M模型是固定的样本类别数,需要对这个部分进行修改,以将类别数作为参数传入。
YouTube-8M 能够处理两种类型的数据:总体特征和帧特征(Frame-Level )。Google AudioSet 能够将我们之前提到的数据作为特征(feature),同时这种特征是以帧的格式给出的。
(1)YouTube-8M 模型完整列表(https://github.com/google/youtube-8m#overview-of-models)
(2)note:训练数据是帧格式的,所以必须使用帧级别的模型。
note:Please also verify that you have Python 2.7+ and Tensorflow 1.0.0 or higher installed.
note: 使用Audio Features 可以参考ReadMe.