05 2017 档案
摘要:作者:桂。 时间:2017-05-31 21:14:56 链接:http://www.cnblogs.com/xingshansi/p/6925955.html 前言 VQ(Vector Quantization)是一个常用的压缩技术,本文主要回顾: 1)VQ原理 2)基于VQ的说话人识别(SR,s
阅读全文
摘要:作者:桂。 时间:2017-05-31 17:43:22 链接:http://www.cnblogs.com/xingshansi/p/6925355.html 前言 总结一下基本的有话帧检测(Voice activity detection, VAD)技术,基于神经网络的待后面梳理完神经网络的理论
阅读全文
摘要:作者:桂。 时间:2017-05-31 16:17:29 链接:http://www.cnblogs.com/xingshansi/p/6924911.html 前言 动态时间规整(Dynamic Time Warping,DTW)是孤立词识别的早期技术,梳理一下,主要包括: 1)孤立词识别操作步骤
阅读全文
摘要:今天看到群里有人讨论这个问题,记录一下。 主要内容转自:http://www.cnblogs.com/welen/p/3782896.html 变调和变速原理 自然语音的产生可以简化为图2-1模型,激励源出来的声门波信号与声道模型进行卷积,最后通过嘴唇辐射模型产生语音。其中,激励源决定说话人的基频的
阅读全文
摘要:今天群里朋友问到一个问题:这个处理是啥意思? 记录一下。 思路: x为原信号,y为处理后的信号。其中大写为频域信号,小写为时域信号。 考虑到余弦对应的傅里叶变换,以及正弦对应的傅里叶变换,可以说是:余弦保持不变,正弦对应变为余弦。如果对于复信号呢?就是单边谱变为了双边谱。 仿真
阅读全文
摘要:作者:桂。 时间:2017-05-25 10:14:21 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 书中代码:http://pan.baidu.com/s/1hsj4Wlu,提取密码:9dmi 前言 最近学习有一点体会
阅读全文
摘要:作者:桂。 时间:2017-05-24 10:06:39 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 书中代码:http://pan.baidu.com/s/1hsj4Wlu,提取密码:9dmi 一、谱减的基本原理 A-
阅读全文
摘要:转自:http://blog.csdn.net/yanli0823/article/details/8186382 亲测有效,环境: windows 8.1 perl版本: HTK版本:Hidden Markov Toolkit (HTK) 3.4.1 〇、HTK简介 HTK(HMM Tools K
阅读全文
摘要:问题1:VS2012 编译程序时:无法查找或打开PDB文件 解决方法:调试-选项-符号-Microsoft符号服务器打钩,然后确定,就OK了。 问题2:按F5运行.c程序,dos窗口闪退 解决方法:Crtl + F5 问题3:编译C程序,出现:【C】error C2143: 语法错误 : 缺少“;”
阅读全文
摘要:作者:桂。 时间:2017-05-24 09:09:36 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 一、语音产生过程 发音机制涉及到的器官: 挑几个重点的说一下, 声带(说话/呼吸)的状态: 清音时声带不振动,浊音时声
阅读全文
摘要:作者:桂。 时间:2017-05-24 08:44:53 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 这一章主要是数字信号处理的知识点,之前有总结过一些,感兴趣可以点击链接看一看。 1.傅里叶变换(FT-DTFT-DFT
阅读全文
摘要:作者:桂。 时间:2017-05-24 08:06:45 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 1.语音增强(speech enhancement)主要从攻/防两面入手:quality + intelligibil
阅读全文
摘要:转自:http://www.lining0806.com/%E5%B0%86svm%E7%94%A8%E4%BA%8E%E5%A4%9A%E7%B1%BB%E5%88%86%E7%B1%BB/ SVM是一种典型的二类分类器,是采用最大间隔化策略来确定特征空间中最优超平面的,也就是说它只能回答属于正类
阅读全文
摘要:作者:桂。 时间:2017-05-23 15:52:51 链接:http://www.cnblogs.com/xingshansi/p/6895710.html 一、理论描述 Kernel ridge regression (KRR)是对Ridge regression的扩展,看一下Ridge回归的
阅读全文
摘要:主要记python工具包sklearn的学习内容: 链接点击这里。 一、Regression & Classification 1.1. Generalized Linear Models 1.2. Linear and Quadratic Discriminant Analysis 1.3. Ke
阅读全文
摘要:作者:桂。 时间:2017-05-23 06:37:31 链接:http://www.cnblogs.com/xingshansi/p/6892317.html 前言 仍然是python库函数scikit-learn的学习笔记,内容Regression-1.2Linear and Quadratic
阅读全文
摘要:作者:桂。 时间:2017-05-22 15:28:43 链接:http://www.cnblogs.com/xingshansi/p/6890048.html 前言 主要记录python工具包:sci-kit learn的基本用法。 本文主要是线性回归模型,包括: 1)普通最小二乘拟合 2)Rid
阅读全文
摘要:转自:http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=2652565022&idx=1&sn=9aa035097120406a669a1e5570173ef5&chksm=8464c654b3134f42edfeccdcc2d33fe0065
阅读全文
摘要:作者:桂。 时间:2017-05-22 12:12:43 链接:http://www.cnblogs.com/xingshansi/p/6884273.html 前言 今天群里冒出这样一个问题:群里谁有INFORMAX语音分离源程序?看到要程序的就头大,这是一个盲源分离问题,之前没有推导过,借此过一
阅读全文
摘要:前几天群里有人提出一个问题:MATLAB里,同样频率的信号写入/读取,为什么频率感觉不同? 测试code: 结果: 幅度放大之后,信号失真,也难怪频率听起来不同了。看一看wavwrite特性: 为了让信号不失真,可以采取两个办法:1)信号归一化;2)利用NBITs=32设置: 修改:
阅读全文
摘要:一、问题描述 二、解题思路 这道题:exactly one solution,所以:1)不必考虑多解情况;2)不必考虑无解的异常处理。 方法一:暴力搜索 直接依次进行比较,时间复杂度O(n2): 用时过长: 当然也可以先排序,再利用首/尾移动查找,复杂付O(n*logn) 方法二:哈希表(O(n))
阅读全文
摘要:作者:桂。 时间:2017-05-16 链接:http://www.cnblogs.com/xingshansi/p/6862683.html 前言 下午看到群里讨论有人提到这个问题,记录一下。 一、啸叫 定义 在平时跟别人用电脑语音聊天,声音传给你-再传给对方-再传给你,循环往复且不消失,这个就是
阅读全文
摘要:一直以来学习的都是些理论,编程一直用的也是MATLAB,其他语言很少涉及。希望自己弥补这一块短板,时间初步定在五月底,拿出半个月时间学习Python,学多少算多少。 直接从leetcode开始: array,string,tree,linkedlist,math
阅读全文
摘要:作者:桂。 时间:2017-05-13 21:52:14 链接:http://www.cnblogs.com/xingshansi/p/6850684.html 前言 主要记录SVM的相关知识,参考的是李航的《统计学习方法》,最后的SMO优化算法(Sequential minimal optimiz
阅读全文
摘要:作者:桂。 时间:2017-05-13 14:19:14 链接:http://www.cnblogs.com/xingshansi/p/6847334.html 、 前言 内容主要是CART算法的学习笔记。 CART算法是一个二叉树问题,即总是有两种选择,而不像之前的ID3以及C4.5B可能有多种选
阅读全文
摘要:作者:桂。 时间:2017-05-12 12:45:57 链接:http://www.cnblogs.com/xingshansi/p/6770062.html 前言 主要是最大熵模型(Maximum entropy model)的学习记录。 一、基本性质 在啥也不知道的时候,没有什么假设以及先验作
阅读全文
摘要:作者:桂。 时间:2017-05-10 19:17:32 链接:http://www.cnblogs.com/xingshansi/p/6832219.html 一、环境 python3.5 Win8.1,64位 二、Wavenet安装 Wavenet安装环境: Tensorflow:1.0.1以上
阅读全文
摘要:everything搜索、notepad++文档搜索、网络爬虫等等,很多地方都会用到正则表达式,花点时间了解一下几个常用的: 元字符匹配 1-\bhi\b:匹配hi单词 2-\bhi\b.*\bLucy\b:hi不远处跟着一个Lucy 3-0\d{2}-\d{8}:\d,数字匹配。连续重复2次/8次
阅读全文
摘要:原文链接:http://www.cnblogs.com/xyzdw/articles/2108149.html 1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入"cmd"后点击确定按钮,进入DO
阅读全文
摘要:记录一下常用的数据库。 TIMIT也忘记当时从哪下的了,网上也没看到好一点的链接。TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音
阅读全文
摘要:作者:桂。 时间:2017-05-06 11:20:47 链接:http://www.cnblogs.com/xingshansi/p/6816308.html 前言 本文主要记录librosa工具包的使用,librosa在音频、乐音信号的分析中经常用到,是python的一个工具包,这里主要记录它的
阅读全文
摘要:作者:桂。 时间:2017-05-06 08:39:37 链接:http://www.cnblogs.com/xingshansi/p/6815772.html 前言 还是李航的《统计学习方法》,主要是决策树的内容,主要包括ID3、C4.5以及对应的剪枝方法。内容为自己的学习记录,可能读起来会前言不
阅读全文
摘要:作者:桂。 时间:2017-05-05 21:45:07 链接:http://www.cnblogs.com/xingshansi/p/6815217.html 前言 主要总结一下常用的音频特征,并给出具体的理论分析及代码。 一、过零率 过零率的表达式为: 其中N为一帧的长度,n为对应的帧数,按帧处
阅读全文
摘要:作者:桂。 时间:2017-05-04 18:31:09 链接:http://www.cnblogs.com/xingshansi/p/6806637.html 前言 语音识别等应用离不开音频特征的提取,最近在看音频特征提取的内容,用到一个python下的工具包——pyAudioAnalysis:
阅读全文
摘要:摘自:http://www.cnblogs.com/codingmylife/archive/2010/06/06/1752807.html 1.性能 Py3.0运行 pystone benchmark的速度比Py2.5慢30%。Guido认为Py3.0有极大的优化空间,在字符串和整形操作上可 以取
阅读全文
摘要:作者:桂。 时间:2017-05-03 12:18:46 链接:http://www.cnblogs.com/xingshansi/p/6799994.html 前言 本文主要记录python下音频常用的操作,以.wav格式文件为例。其实网上有很多现成的音频工具包,如果仅仅调用,工具包是更方便的。
阅读全文