谈谈音频开发

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2021年1月18日

摘要: 在处理深度学习分类问题时,会用到一些评价指标,如accuracy(准确率)等。刚开始接触时会感觉有点多有点绕,不太好理解。本文写出我的理解,同时以语音唤醒(唤醒词识别)来举例,希望能加深理解这些指标。 1,TP / FP / TN / FN 下表表示为一个二分类的混淆矩阵(多分类同理,把不属于当前类 阅读全文
posted @ 2021-01-18 09:36 davidtym 阅读(1724) 评论(0) 推荐(0) 编辑

2020年5月29日

摘要: 当音频的声道数多于一个时,音频数据的存放有两种格式,即交织的(interleave)和非交织的(non-interleave)。以最常见的双声道为例,交织和非交织的音频数据存放如下图: 上图中L表示左声道数据,R表示右声道数据,整数1、2等表示第几个采样点,这样L1就表示左声道的第一个采样点数据。从 阅读全文
posted @ 2020-05-29 18:18 davidtym 阅读(1440) 评论(0) 推荐(1) 编辑

2019年12月30日

摘要: 先前的文章《三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的 》说我们花了不到三个月的时间搭了一个基于kaldi的嵌入式语音识别系统,不过它是基于传统的GMM-HMM的,是给我们练手用的,通过搭这个系统我们累积了一定的语音识别领域的经验,接下来我们就要考虑做什么形态的产品了。语 阅读全文
posted @ 2019-12-30 08:09 davidtym 阅读(2492) 评论(0) 推荐(3) 编辑

2019年11月5日

摘要: 在基于DNN-HMM的语音识别中,DNN的作用跟GMM是一样的,即它是取代GMM的,具体作用是算特征值对每个三音素状态的概率,算出来哪个最大这个特征值就对应哪个状态。只不过以前是用GMM算的,现在用DNN算了。这是典型的多分类问题,所以输出层用的激活函数是softmax,损失函数用的是cross e 阅读全文
posted @ 2019-11-05 08:16 davidtym 阅读(1562) 评论(0) 推荐(0) 编辑

2019年10月18日

摘要: 本文讲梯度下降(Gradient Descent)前先看看利用梯度下降法进行监督学习(例如分类、回归等)的一般步骤: 1, 定义损失函数(Loss Function) 2, 信息流forward propagation,直到输出端 3, 误差信号back propagation。采用“链式法则”,求 阅读全文
posted @ 2019-10-18 08:08 davidtym 阅读(2564) 评论(1) 推荐(0) 编辑

2019年9月9日

摘要: 前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别)。刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(GMM+HMM+NGRAM)概述)。一段时间后老板就布置了具体任务:在我们公司自己的ARM芯片上基于k 阅读全文
posted @ 2019-09-09 08:21 davidtym 阅读(9826) 评论(6) 推荐(9) 编辑

2019年8月12日

摘要: 在基于GMM-HMM的传统语音识别里,比音素(phone)更小的单位是状态(state)。一般每个音素由三个状态组成,特殊的是静音(SIL)由五个状态组成。这里所说的状态就是指HMM里的隐藏的状态,而每帧数据就是指HMM里的观测值。每个状态可以用一个GMM模型表示(这个GMM模型的参数是通过训练得到 阅读全文
posted @ 2019-08-12 08:05 davidtym 阅读(1962) 评论(0) 推荐(0) 编辑

2019年7月7日

摘要: 本人以前主要focus在传统音频的软件开发,接触到的算法主要是音频信号处理相关的,如各种编解码算法和回声消除算法等。最近切到语音识别上,接触到的算法就变成了各种机器学习算法,如GMM等。K-means作为其中比较简单的一种肯定是要好好掌握的。今天就讲讲K-means的基本原理和代码实现。其中基本原理 阅读全文
posted @ 2019-07-07 22:28 davidtym 阅读(5113) 评论(2) 推荐(1) 编辑

2019年6月23日

摘要: 学习语音识别有些时间了。老板要求我们基于Kaldi搭一个语音识别系统,在设备上通过MIC讲话,连着设备的PC的console上就能基本实时显示出讲话的内容。由于我们都是小白,刚开始可以要求低些,就用传统的GMM-HMM,能实现孤立词识别就算达标了,后面随着这方面能力的提高,再做更难一点的。任务下达后 阅读全文
posted @ 2019-06-23 22:53 davidtym 阅读(3600) 评论(0) 推荐(0) 编辑

2019年5月28日

摘要: 上篇博客(语音识别传统方法(GMM+HMM+NGRAM)概述)说到我们team要做语音识别相关的项目,而我们公司的芯片是用在终端上的,即我们要做终端上的语音识别。由于目前终端(如手机)上的CPU还不足够强劲,不能让语音识别的各种算法跑在终端上,尤其现在语音识别都是基于深度学习来做了,更加不能跑在终端 阅读全文
posted @ 2019-05-28 22:26 davidtym 阅读(4853) 评论(2) 推荐(1) 编辑