语音识别一:开源框架篇
MASR:
https://github.com/nobody132/masr
pytorch框架实现,
提供了AISHELL-1数据集上的中文预训练模型
ASRT
https://asrt.ailemon.net/
Tensorflow框架实现
比较全面的文档和维护,提供了中文预训练模型
DeepSpeech
https://github.com/mozilla/DeepSpeech/releases/tag/v0.9.3
tensorflow框架实现
文档全面,官方维护,提供了中文预训练模型,提供python包和java包
we're releasing experimental Mandarin Chinese acoustic models trained on an internal corpus composed of 2000h of read speech
DeepSpeech2
https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech
paddle实现
提供了预训练模型,文档较全
WeNet
https://github.com/wenet-e2e/wenet/
pytorch框架实现
文档全面,官方维护,提供了各个中文数据集的预训练模型,没找到推理接口
Wav2Letter++
https://github.com/flashlight/wav2letter
C++实现
官方实现,没有提供预训练模型
Kaldi
C++实现
老牌的语音识别框架,业界使用广泛,网上有丰富的文档,使用多个数据集一起训练的中文预训练模型
Speechbrain
https://github.com/speechbrain/speechbrain
pytorch实现,最新的框架
文档全面,官方维护。提供了aishell数据集上的预训练模型,
kaldi的一些学习教程
基于Kaldi的中文在线识别系统:https://zhuanlan.zhihu.com/p/366901009
中小公司要不要自研ASR?:https://zhuanlan.zhihu.com/p/352452501
学习Kaldi:中文Aishell项目(上):https://zhuanlan.zhihu.com/p/143947930
智能语音识别技术入门系列(上):https://zhuanlan.zhihu.com/p/141180863
中文数据集:
数据集 | 总时长 | 下载地址 |
---|---|---|
aishell 1 | 178h | http://www.aishelltech.com/kysjcp |
primewords set 1 | 100h | http://www.openslr.org/47/ |
thchs-30 | 30h | http://www.openslr.org/18/ |
st-cmd | 122h | https://openslr.org/38/ |
magicdata | 755h | http://openslr.magicdatatech.com/resources/68/ |