心胸决定格局,眼界决定境界...

随笔分类 -  语音识别

摘要:实时语音通信发展到今天,用户对通话语音质量提出了越来越高的要求。由于终端设备的多样性以及使用场景的差异,声音问题依然存在。传统的音频处理技术从声音信号本身出发,挖掘其时频特性,作出假设,建立物理模型,很多参数都需要人工进行精细化微调,比较费时费力。随着AI技术的发展,凭借着其强大的拟合能力,利用数据 阅读全文
posted @ 2019-03-14 14:28 WELEN 阅读(9044) 评论(2) 推荐(1) 编辑
摘要:噪声问题一直是语音识别的一个老大难的问题,在理想的实验室的环境下,识别效果已经非常好了,之前听很多音频算法工程师抱怨,在给识别做降噪时,经常发现WER不降反升,降低了识别率,有点莫名其妙,又无处下手。 刚好,前段时间调到了AIlab部门,有机会接触这块,改善语音识别的噪声问题,虽然在此之前,询问过同 阅读全文
posted @ 2019-03-13 16:32 WELEN 阅读(10772) 评论(3) 推荐(9) 编辑
摘要:维度分析:假设输入的训练数据为m个,维度为d,记作X(m,d);显然w为w(m,1); wT*x+b 核函数计算:k(x,y)->上公式改写成 wT*@(x)+b 假设支持的向量跟训练数据保持一致,没有筛选掉一个,则支撑的数据就是归一化后的X,记作:Xst; 测试数据为T(n,d); 则核函数计算后 阅读全文
posted @ 2017-02-20 23:17 WELEN 阅读(30352) 评论(1) 推荐(1) 编辑
摘要:正向传播: W下脚标定义根据用户自己的习惯 反向传播算法 1.误差由本层传到上层相关联的结点,权重分配 2.上层某个结点的总误差 2.误差最小化与权重变量有关,最小梯度法。 权重因子更新 偏导数求解,链式求导法则: 误差由本层逐层向上层推进,归纳公式: 阅读全文
posted @ 2017-01-20 10:06 WELEN 阅读(493) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2017-01-10 15:11 WELEN 阅读(1) 评论(0) 推荐(0) 编辑
摘要:大多数文章和博客介绍都是MFCC的算法流程,物理意义,这里仅仅从数据分布可视化的角度,清晰观察MFCC特征在空间中的分布情况,加深理解。 MFCC处理流程: MFCC参数的提取包括以下几个步骤:1.预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。2.A/D变换:8kHz... 阅读全文
posted @ 2014-11-14 10:55 WELEN 阅读(2351) 评论(1) 推荐(0) 编辑
摘要:網路上的說明大多是英文的,提供個翻譯的中文版本給大家。參考自http://www.phon.ucl.ac.uk/resource/sfs/howto/htk .htm參考自http://www.llaisdy.com/blog/2007/07/30/compiling-htk -34-on-wind... 阅读全文
posted @ 2014-08-22 23:22 WELEN 阅读(258) 评论(0) 推荐(0) 编辑
摘要:今天整理资料时,发现了在学校时做的这个实验,当时整个过程过重偏向依赖分类器方面,而又很难对分类器性能进行一定程度的改良,所以最后没有选用这个方案,估计以后也不会接触这类机器学习的东西了,希望它对刚入门的人有点用。 SVM比较适合高维数据的二分类,本来准备对语音特征直接用SVM进行二分类,但是发现样... 阅读全文
posted @ 2014-08-12 10:14 WELEN 阅读(1275) 评论(0) 推荐(0) 编辑
摘要:转:http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html1 综述(1)什么是特征选择特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择(... 阅读全文
posted @ 2014-07-14 23:44 WELEN 阅读(509) 评论(0) 推荐(0) 编辑
摘要:很久以前的发在研学论坛的帖子了,再重新整理了一下,希望对新手有用。完整版链接:http://yun.baidu.com/s/1hapcE第一步 创建语音文件 录音命令:HSLab any_name.sig第二步:声学分析抽取yes和no的mfcc特征参数。保存在data/train/lab与data... 阅读全文
posted @ 2014-06-24 11:44 WELEN 阅读(1472) 评论(0) 推荐(0) 编辑
摘要:TIMIT语音库有着准确的音素标注,因此可以应用于语音分割性能评价,同时该数据库又含有几百个说话人语音,所以也是评价说话人识别常用的权威语音库,但该语音库的商业用途是要花钱买的。下面的资源来自与MIT教学实验使用,大概有430多M。下载地址:http://web.mit.edu/course/6/6... 阅读全文
posted @ 2014-06-11 21:43 WELEN 阅读(10248) 评论(0) 推荐(0) 编辑
摘要:选自:http://my.oschina.net/jamesju/blog/1161511前言最近一直在研究HTK语音识别工具包,前几天完成了工具包的安装编译和测试,这几天又按耐不住好奇,决定自己动手搞一搞,尝试一下用这个工具包,进行简单的孤立词识别,看了几天的文档,做了各种尝试,总算跌跌撞撞的实现... 阅读全文
posted @ 2014-06-11 15:54 WELEN 阅读(650) 评论(0) 推荐(0) 编辑
摘要:http://pan.baidu.com/s/1o6BdE5c 阅读全文
posted @ 2014-06-11 14:45 WELEN 阅读(757) 评论(0) 推荐(1) 编辑
摘要:http://pan.baidu.com/s/1o6BdE5c 阅读全文
posted @ 2014-06-11 14:43 WELEN 阅读(731) 评论(0) 推荐(0) 编辑
摘要:选自:http://maotong.blog.hexun.com/6267266_d.html压缩包包括全部的配置文件,脚本文件,必备的模型文件和实验手册。全部实验材料的下载链接:1http://su.tonghua.googlepages.com/voicedialsystem.zip2http:... 阅读全文
posted @ 2014-06-11 14:28 WELEN 阅读(532) 评论(0) 推荐(0) 编辑
摘要:选自:http://maotong.blog.hexun.com/6261890_d.html苏统华哈尔滨工业大学人工智能研究室2006年10月30日声明:版权所有,转载请注明作者和来源该系统能够识别连续说出的数字串和若干组姓名。建模是针对子词(sub-word, eg. 音素),具有一定的可扩充性... 阅读全文
posted @ 2014-06-11 14:27 WELEN 阅读(449) 评论(0) 推荐(0) 编辑
摘要:选自:http://maotong.blog.hexun.com/6261873_d.html苏统华哈尔滨工业大学人工智能研究室2006年10月30日声明:版权所有,转载请注明作者和来源该系统能够识别连续说出的数字串和若干组姓名。建模是针对子词(sub-word, eg. 音素),具有一定的可扩充性... 阅读全文
posted @ 2014-06-11 14:25 WELEN 阅读(1588) 评论(0) 推荐(0) 编辑
摘要:选自:http://maotong.blog.hexun.com/6204849_d.html苏统华哈尔滨工业大学人工智能研究室2006年10月30日声明:版权所有,转载请注明作者和来源该系统能够识别连续说出的数字串和若干组姓名。建模是针对子词(sub-word, eg. 音素),具有一定的可扩充性... 阅读全文
posted @ 2014-06-11 14:23 WELEN 阅读(1010) 评论(0) 推荐(0) 编辑
摘要:选自:http://maotong.blog.hexun.com/6204849_d.html应用HTK搭建语音拨号系统--数据准备苏统华哈尔滨工业大学人工智能研究室2006年10月30日声明:版权所有,转载请注明作者和来源该系统能够识别连续说出的数字串和若干组姓名。建模是针对子词(sub-word... 阅读全文
posted @ 2014-06-11 14:21 WELEN 阅读(1025) 评论(0) 推荐(0) 编辑
摘要:选自:http://www.cnblogs.com/mingzhao810/archive/2012/08/03/2617674.html 这个是重点,呵呵,本部分会讨论到如下内容: 1. 建立语音材料库,确定识别基本元,比如一个单词 yes no ok等,或者 声母 b p m f 韵母 d t... 阅读全文
posted @ 2014-06-11 14:05 WELEN 阅读(1613) 评论(0) 推荐(0) 编辑