最近由于项目需要,学习了语音识别的一些知识。
语音识别最主要的就是傅里叶变化,把变化的时域特征转化成静态的频域特征,进而从频域上来进行声音的提取;
基本思路如下:每一时刻的频域特征可以转化成一个向量,[低频,,,,,,高频] 每一维度为对应的能量特征;这样就可以对声音进行建模了;
刚学习的包:
pyAudioAnalysis 可以提取声音特征