asr - 随笔分类 - Mike_Zhang

python使用vosk进行中文语音识别

摘要：操作系统：Windows10 Python版本：3.9.2 vosk是一个离线开源语音识别工具，它可以识别16种语言，包括中文。这里记录下使用vosk进行中文识别的过程，以便后续查阅。 vosk地址：https://alphacephei.com/vosk/ 一、使用vosk-server进行语音阅读全文

posted @ 2022-05-21 01:05 Mike_Zhang

使用SpeechRecognition进行语音识别

摘要：操作系统： CentOS7.7.1908_x64 gcc版本：4.8.5 Python 版本 : 3.6.8 安装语音识别环境： virtualenv -p /usr/bin/python3 py36asr source py36asr/bin/activate pip install Spee 阅读全文

posted @ 2020-06-21 23:03 Mike_Zhang

kaldi使用cvte模型进行语音识别

摘要：操作系统： Unbutu18.04_x64 gcc版本：7.4.0 该模型在thch30数据集上测试的错误率只有8.25%，效果还是不错的。模型下载地址： http://www.kaldi-asr.org/models/m2 选择模型：CVTE Mandarin Model V2 测试文本：阅读全文

posted @ 2019-10-26 21:30 Mike_Zhang

kaldi使用thchs30数据进行训练并执行识别操作

摘要：操作系统： Ubutu18.04_x64 gcc版本：7.4.0 数据准备及训练数据地址： http://www.openslr.org/18/ 在 egs/thchs30/s5 建立 thchs30-openslr 文件夹，然后把三个文件解压在了该文件夹下：进入 s5 目录，修改脚本：修阅读全文

posted @ 2019-10-22 22:14 Mike_Zhang

kaldi简介及安装

摘要：操作系统： Ubuntu18.04_x64 gcc版本：7.4.0 简介 Kaldi诞生于2009年的JohnsHopkins University，刚开始项目重点是子空间高斯模型（SGMM）建模和词汇学习抽样调查，代码也是基于HTK进行的开发，现在也是C++作为主要语言。但是随着更多参与者的加阅读全文

posted @ 2019-10-19 23:35 Mike_Zhang

随笔分类 - asr