语音识别资料整理
语音识别
Information
cmu sphinx
Kaldi
DataSet
# 下载中文语音数据集(5G+):
$ wget http://data.cslt.org/thchs30/zip/wav.tgz
$ wget http://data.cslt.org/thchs30/zip/doc.tgz
$ wget http://data.cslt.org/thchs30/zip/lm.tgz
# 解压
$ tar xvf wav.tgz
$ tar xvf doc.tgz
$ tar xvf lm.tgz
CSLT数据
清华大学cslt实验室分享中文语音识别: 数据集
data_thchs30.tgz [6.4G] ( speech data and transcripts )
test-noise.tgz [1.9G] ( standard 0db noisy test data )
resource.tgz [24M] ( supplementary resources, incl. lexicon for training data, noise samples )
Theory
-
声学特征提取,如MFCC,其中假设声学特征是12维,这和Alex(train_vad_ffnn)里得到MFCC是26维一样的道理么,这个维度如何界定?