语音识别开源系统——百度deepspeech

1. Deepspeech各个版本（https://github.com/PaddlePaddle/DeepSpeech）

(1) DeepSpeech V1

其中百度研究团队于2014年底发布了第一代深度语音识别系统 Deep Speech 的研究论文，系统采用了端对端的深度学习技术，也就是说，系统不需要人工设计组件对噪声、混响或扬声器波动进行建模，而是直接从语料中进行学习。采用 7000 小时的干净语音语料，通过添加人工噪音的方法生成 10 万小时的合成语音语料，并在 SWITCHBOARD评测语料上获得了 16.5% 的 WER（词错误率，是一项语音识别的通用评估标准）。

(2) DeepSpeech V2

2015 年年底，百度 SVAIL 推出了Deep Speech 2，最初是为了改善在饭店、汽车、公共交通等嘈杂环境下英语识别的准确度问题。Deep Speech 2基于 LSTM-CTC（Connectionist Temporal Classification）端对端语音识别技术，将机器学习领域的 LSTM 建模与 CTC 训练引入传统的语音识别框架里，通过深度学习网络识别嘈杂环境下的两种完全不同的语言——英语与普通话。端到端的学习能够使系统处理各种条件下的语音，包括嘈杂环境、口音及区别不同语种。在 Deep Speech 2 中，百度应用了 HPC 技术识别缩短了训练时间，使得以往在几个星期才能完成的实验只需要几天就能完成。

(3) DeepSpeech V3

2017年10月31日，百度的硅谷AI实验室发布了Deep Speech 3，进一步简化了模型，并且可以在使用预训练过的语言模型时继续进行端到端训练。

目前开源版本为DeepSpeech V2

2.在Docker容器上运行

Docker 是一个开源工具，用于在孤立的环境中构建、发布和运行分布式应用程序。此项目的 Docker 镜像已在hub.docker.com中提供，并安装了所有依赖项，其中包括预先构建的PaddlePaddle，CTC解码器以及其他必要的 Python 和第三方库。这个 Docker 映像需要NVIDIA GPU的支持，所以请确保它的可用性并已完成nvidia-docker的安装。

采取以下步骤来启动 Docker 镜像：

下载 Docker 镜像

nvidia-docker pull hub.baidubce.com/paddlepaddle/deep_speech_fluid:latest-gpu

git clone 这个资源库

git clone https://github.com/PaddlePaddle/DeepSpeech.git

运行 Docker 镜像

sudo nvidia-docker run -it -v $(pwd)/DeepSpeech:/DeepSpeech hub.baidubce.com/paddlepaddle/deep_speech_fluid:latest-gpu /bin/bash

现在返回并从开始部分开始，您可以在Docker容器中同样执行模型训练，推断和超参数调整。

安装 PaddlePaddle(https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/2.0/install/conda/linux-conda.html)

conda install paddlepaddle-gpu==2.0.0 cudatoolkit=10.2 -c paddle
使用本地conda包安装
conda install --use-local 包名
验证paddle是否安装成功
输入：
python
import paddle
paddle.utils.run_check()
正确运行结果如下

安装requeirement.txt中的依赖包

posted @ 2021-02-19 13:06 皮皮俊阅读(2894) 评论(0) 收藏举报

刷新页面返回顶部

皮皮俊

语音识别开源系统——百度deepspeech

1. Deepspeech各个版本（https://github.com/PaddlePaddle/DeepSpeech）

公告