随笔分类 -  语音识别(ASR)

基于Kaldi的中文在线识别系统
摘要:本文来自公众号“AI大道理”。 三音子模型词错误率为:36.03%,对比单音素模型词错误率为50.58%。 可见三音素模型识别率已经有了提高。 不管模型识别率怎么样,先利用三音子模型搭建一个中文在线识别系统看看效果。 ​ ​在线识别与离线识别 本文主要搭建在线语音识别,还有一种离线语音识别,两者有什 阅读全文

posted @ 2021-04-22 13:21 AI大道理 阅读(675) 评论(0) 推荐(1) 编辑

AI大语音(十四)——区分性训练 (深度解析)
摘要:本文来自公众号“AI大道理” 声学模型的训练一般是基于极大似然准则(ML),然而ML只考虑正确路径的优化训练,没有考虑降低其他路径的分数,因此识别效果不佳。区分性训练目标是提高正确路径得分的同时降低其他路径的得分,加大这些路径间的差异,因此识别效果更好。 1 互信息 区分性训练的其中一个常用准则叫M 阅读全文

posted @ 2020-11-26 14:51 AI大道理 阅读(786) 评论(0) 推荐(0) 编辑

AI大语音(十三)——DNN-HMM (深度解析)
摘要:本文来自公众号“AI大道理” GMM-HMM建模能力有限,无法准确的表征语音内部复杂的结构,所以识别率低。 随着深度学习的崛起,研究人员将其逐步应用于语音识别中。 最开始便是DNN代替了GMM来进行观察状态概率的输出,实现DNN-HMM声学模型框架,大大提高了识别率。 1 GMM-HMM与DNN-H 阅读全文

posted @ 2020-11-23 22:39 AI大道理 阅读(1323) 评论(0) 推荐(0) 编辑

AI大语音(十二)——WFST解码器(下)(深度解析)
摘要:本文来自公众号“AI大道理”。 把HMM、语言模型N-gram、发音词典、上下文相关转化成WFST,再进行合成得到一个巨大的WFST。对这个巨大的WFST进行确定化、权重移动、最小化等优化,得到一个浓缩的包含各种约束的网络。语音识别就变成在一个WFST的搜索问题了,使用Viterbi的集束搜索得到最 阅读全文

posted @ 2020-11-19 23:14 AI大道理 阅读(960) 评论(0) 推荐(0) 编辑

AI大语音(十一)——WFST解码器(上)(深度解析)
摘要:点击上方“AI大道理”,选择“置顶”公众号 为了让识别出来的语音符合常规语言表达,引入了语言模型作为约束。 为了加速解码识别效率又引入了WFST解码机制。 解码本质:解码就是在网络中寻找最优路径。 ​解码方式多种多样,各有优缺点。 ​ (注:on-the-fly Rescoring 归为动态解码有待 阅读全文

posted @ 2020-11-17 23:35 AI大道理 阅读(1118) 评论(0) 推荐(0) 编辑

AI大语音(十)——N-gram语言模型(深度解析)
摘要:扫描下方“AI大道理”,选择“关注”公众号 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。 阅读全文

posted @ 2020-10-14 16:21 AI大道理 阅读(1650) 评论(0) 推荐(0) 编辑

AI大语音(九)——基于GMM-HMM的连续语音识别系统
摘要:上一专题GMM-HMM声学模型中讲述了其理论知识,这一章利用理论搭建一套GMM-HMM系统,来识别连续0123456789的英文语音。 本系统是单音素,未涉及后面三音子的训练以及决策树的内容。 在GMM专题和HMM专题中分别讲述了其训练都是EM算法,那么融合形成GMM-HMM模型后会如何训练?是应用 阅读全文

posted @ 2020-10-04 16:54 AI大道理 阅读(1499) 评论(2) 推荐(0) 编辑

AI大语音(八)——GMM-HMM声学模型
摘要:基于GMM的0-9孤立词识别系统以词为训练单位,添加新词汇需要重新进行训练,若要涵盖所以词,差不多6万个词,训练量极大,预测时也要计算6万个模型的似然,哪个大预测出哪个,在实际应用中有局限性,只能应用于小词汇量场合。 孤立词识别系统识别了0-9的数字的英文单词,但是假如有人用英文报电话号码,是识别不 阅读全文

posted @ 2020-09-24 14:36 AI大道理 阅读(1633) 评论(0) 推荐(0) 编辑

AI大语音(七)——基于GMM的0-9语音识别系统
摘要:点击上方“AI大道理”,选择“置顶”公众号 重磅干货,细致入微AI大道理 —————— 1 系统概要 孤立词识别:语音中只包含一个单词的英文识别 识别对象:0-9以及o的英文语音 训练数据:330句话,每个字符30句话,11个字符 测试数据:110句话,每个字符10句话,11个字符 模型:混合高斯模 阅读全文

posted @ 2020-08-27 16:15 AI大道理 阅读(1093) 评论(0) 推荐(0) 编辑

AI大语音(六)——混合高斯模型(GMM)
摘要:点击上方“AI大道理”,选择“置顶”公众号 重磅干货,细致入微AI大道理 —————— 1 GMM基础 高斯混合模型(GMM)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况。 灵魂的拷问:为什么GMM可以拟合出任意类型的分 阅读全文

posted @ 2020-08-25 17:40 AI大道理 阅读(1548) 评论(0) 推荐(0) 编辑

AI大语音(五)——隐马尔科夫模型(HMM)
摘要:​点击上方“AI大道理”,选择“置顶”公众号 重磅干货,细致入微AI大道理 —————— 1HMM基础 一模型、两假设、三问题 1)一个模型 随机过程:是依赖于参数的一组随机变量的全体,参数通常是时间。随机变量是随机现象的数量表现,其取值随着偶然因素的影响而改变。 例如,某商店在从时间t0到时间tK 阅读全文

posted @ 2020-08-20 01:09 AI大道理 阅读(1143) 评论(0) 推荐(0) 编辑

AI大语音(四)——MFCC特征提取
摘要:点击上方“AI大道理”,选择“置顶”公众号 —————— 1 特征提取流程 在语音识别和话者识别方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。 MFCC提取过程包括预处理、快速傅里叶变换、Mei滤波器组、对 阅读全文

posted @ 2020-08-12 22:47 AI大道理 阅读(2031) 评论(0) 推荐(0) 编辑

AI大语音(三)—傅里叶变换家族
摘要:1 特征提取流程 在语音识别和话者识别方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。 MFCC提取过程包括预处理、快速傅里叶变换、Mei滤波器组、对数运算、离散余弦变换、动态特征提取等步骤。 2 傅里叶家族 阅读全文

posted @ 2020-08-12 17:15 AI大道理 阅读(1352) 评论(1) 推荐(0) 编辑

AI大语音(二)——语音预处理
摘要:1 预滤波 CODEC(所谓Codec,就是编码-解码器“Coder-Decoder”的缩写。说得通俗一点,对于音频就是A/D和D/A转换。)前端带宽为300-3400Hz(语音能量主要集中在250~4500Hz)。的抗混叠滤波器。 工程测量中采样频率不可能无限高也不需要无限高,因为一般只关心一定频 阅读全文

posted @ 2020-08-11 21:44 AI大道理 阅读(1739) 评论(1) 推荐(1) 编辑

AI大语音(一)——语音识别基础
摘要:1 语音识别基础 1.1 声音特性 声音是由物体振动产生的声波。是通过介质传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源。声音以波的形式振动传播。声音是声波通过任何介质传播形成的运动。 频率:是每秒经过一给定点的声波数量,它的测量单位为赫兹,1千赫或1000赫表示每秒经过一给定 阅读全文

posted @ 2020-08-09 21:44 AI大道理 阅读(1754) 评论(1) 推荐(0) 编辑

第二章:声学模型之EM算法
摘要:https://blog.csdn.net/gaofeipaopaotang/article/details/82016405 1.极大似然估计 原理:假设在一个罐子中放着许多白球和黑球,并假定已经知道两种球的数目之比为1:3但是不知道那种颜色的球多。如果用放回抽样方法从罐中取5个球,观察结果为:黑 阅读全文

posted @ 2020-07-29 10:29 AI大道理 阅读(809) 评论(0) 推荐(0) 编辑

导航