语音识别资料整理

语音识别

Information

cmu sphinx
Kaldi

DataSet

TensorFlow15: 中文语音识别 :包含数据集下载和训练代码
语音数据库集合及下载链接
 THCHS30是Dong Wang, Xuewei Zhang, Zhiyong Zhang这几位大神发布的开放语音数据集，可用于开发中文语音识别系统。

# 下载中文语音数据集（5G+）：
$ wget http://data.cslt.org/thchs30/zip/wav.tgz  
$ wget http://data.cslt.org/thchs30/zip/doc.tgz  
$ wget http://data.cslt.org/thchs30/zip/lm.tgz  
# 解压  
$ tar xvf wav.tgz  
$ tar xvf doc.tgz  
$ tar xvf lm.tgz

CSLT数据
 清华大学cslt实验室分享中文语音识别: 数据集

data_thchs30.tgz [6.4G] ( speech data and transcripts )
test-noise.tgz [1.9G] ( standard 0db noisy test data )
resource.tgz [24M] ( supplementary resources, incl. lexicon for training data, noise samples )

PCM、WAV格式介绍及用C语言实现PCM转WAV

Theory

GMM-HMM语音识别模型原理
博主思维清晰，发了很多不错的博客，可以关注一下
HMM中的viterbi算法
语音专题第四讲，语音识别之解码器技术简介
知乎：语音识别的技术原理
关于原理的理解写的很透彻，再细看理解

声学特征提取，如MFCC，其中假设声学特征是12维，这和Alex(train_vad_ffnn)里得到MFCC是26维一样的道理么，这个维度如何界定？

Examples

posted on 2017-08-30 11:00 Vanessa_Feng 阅读(1189) 评论(0) 收藏举报

刷新页面返回顶部

语音识别资料整理

语音识别

Information

DataSet

Theory

Examples

Vanessa_Feng

公告

导航