随笔分类 -  20-音频信号

主要是语音信号相关。
摘要:作者:桂。 时间:2017-06-08 08:01:41 链接:http://www.cnblogs.com/xingshansi/p/6957027.html 原文链接:http://pan.baidu.com/s/1nvp1bJF 前言 理论上借助VAD可以实现噪声估计,但这是远远不够的,例如在 阅读全文
posted @ 2017-06-14 17:22 LeeLIn。 阅读(3215) 评论(0) 推荐(1) 编辑
摘要:作者:桂。 时间:2017-06-14 12:08:57 链接:http://www.cnblogs.com/xingshansi/p/6956556.html 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 书中代码:ht 阅读全文
posted @ 2017-06-14 12:09 LeeLIn。 阅读(8892) 评论(8) 推荐(3) 编辑
摘要:作者:桂。 时间:2017-06-06 16:10:47 链接:http://www.cnblogs.com/xingshansi/p/6951494.html 原文链接:http://pan.baidu.com/s/1i51Kymp omlsa代码:http://pan.baidu.com/s/1 阅读全文
posted @ 2017-06-06 22:44 LeeLIn。 阅读(5256) 评论(0) 推荐(0) 编辑
摘要:作者:桂。 时间:2017-06-06 13:25:58 链接:http://www.cnblogs.com/xingshansi/p/6943833.html 论文原文:http://pan.baidu.com/s/1hsuuQYK 前言 上一篇GSC是基于delay的框架进行处理,这是在无混响的 阅读全文
posted @ 2017-06-06 14:11 LeeLIn。 阅读(3886) 评论(7) 推荐(0) 编辑
摘要:作者:桂。 时间:2017-06-03 21:46:59 链接:http://www.cnblogs.com/xingshansi/p/6937259.html 原文下载:http://pan.baidu.com/s/1hs5kgh2 前言 1982年的文章了,主要是基于GSC框架的麦克风阵列增强, 阅读全文
posted @ 2017-06-03 22:54 LeeLIn。 阅读(5163) 评论(0) 推荐(0) 编辑
摘要:作者:桂。 时间:2017-06-03 15:06:37 链接:http://www.cnblogs.com/xingshansi/p/6937635.html 原文链接:http://pan.baidu.com/s/1pKOYuiJ 前言 本文的算法就是在阵列信号增强中非常经典的Frost's A 阅读全文
posted @ 2017-06-03 17:28 LeeLIn。 阅读(3595) 评论(1) 推荐(0) 编辑
摘要:作者:桂。 时间:2017-06-03 15:40:33 链接:http://www.cnblogs.com/xingshansi/p/6937576.html 前言 本文主要记录麦克风阵列的几个基本知识点,并简单介绍基本的波束合成方法:Delay and sum (DSB). 一、栅瓣效应 类似干 阅读全文
posted @ 2017-06-03 16:04 LeeLIn。 阅读(7083) 评论(0) 推荐(1) 编辑
摘要:转自:http://blog.csdn.net/jackytintin/article/details/62040823 对于没有使用过智能音箱的读者,可以观看 Echo 的官方广告,直观地体验下智能音箱。 目前的智能音箱多基于语音控制,其基本交互流程可以用图1 概括:1)用户通过自然语言向音箱提出 阅读全文
posted @ 2017-06-02 08:50 LeeLIn。 阅读(3060) 评论(0) 推荐(0) 编辑
摘要:作者:桂。 时间:2017-05-31 21:14:56 链接:http://www.cnblogs.com/xingshansi/p/6925955.html 前言 VQ(Vector Quantization)是一个常用的压缩技术,本文主要回顾: 1)VQ原理 2)基于VQ的说话人识别(SR,s 阅读全文
posted @ 2017-05-31 23:17 LeeLIn。 阅读(8410) 评论(0) 推荐(3) 编辑
摘要:作者:桂。 时间:2017-05-31 17:43:22 链接:http://www.cnblogs.com/xingshansi/p/6925355.html 前言 总结一下基本的有话帧检测(Voice activity detection, VAD)技术,基于神经网络的待后面梳理完神经网络的理论 阅读全文
posted @ 2017-05-31 20:07 LeeLIn。 阅读(5989) 评论(2) 推荐(2) 编辑
摘要:作者:桂。 时间:2017-05-31 16:17:29 链接:http://www.cnblogs.com/xingshansi/p/6924911.html 前言 动态时间规整(Dynamic Time Warping,DTW)是孤立词识别的早期技术,梳理一下,主要包括: 1)孤立词识别操作步骤 阅读全文
posted @ 2017-05-31 16:45 LeeLIn。 阅读(16320) 评论(0) 推荐(4) 编辑
摘要:今天看到群里有人讨论这个问题,记录一下。 主要内容转自:http://www.cnblogs.com/welen/p/3782896.html 变调和变速原理 自然语音的产生可以简化为图2-1模型,激励源出来的声门波信号与声道模型进行卷积,最后通过嘴唇辐射模型产生语音。其中,激励源决定说话人的基频的 阅读全文
posted @ 2017-05-25 16:22 LeeLIn。 阅读(3077) 评论(0) 推荐(1) 编辑
摘要:作者:桂。 时间:2017-05-25 10:14:21 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 书中代码:http://pan.baidu.com/s/1hsj4Wlu,提取密码:9dmi 前言 最近学习有一点体会 阅读全文
posted @ 2017-05-25 11:26 LeeLIn。 阅读(3169) 评论(0) 推荐(2) 编辑
摘要:作者:桂。 时间:2017-05-24 10:06:39 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 书中代码:http://pan.baidu.com/s/1hsj4Wlu,提取密码:9dmi 一、谱减的基本原理 A- 阅读全文
posted @ 2017-05-25 10:11 LeeLIn。 阅读(2015) 评论(0) 推荐(2) 编辑
摘要:作者:桂。 时间:2017-05-24 09:09:36 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 一、语音产生过程 发音机制涉及到的器官: 挑几个重点的说一下, 声带(说话/呼吸)的状态: 清音时声带不振动,浊音时声 阅读全文
posted @ 2017-05-24 09:57 LeeLIn。 阅读(1245) 评论(0) 推荐(1) 编辑
摘要:作者:桂。 时间:2017-05-24 08:44:53 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 这一章主要是数字信号处理的知识点,之前有总结过一些,感兴趣可以点击链接看一看。 1.傅里叶变换(FT-DTFT-DFT 阅读全文
posted @ 2017-05-24 09:06 LeeLIn。 阅读(1793) 评论(0) 推荐(1) 编辑
摘要:作者:桂。 时间:2017-05-24 08:06:45 主要是《Speech enhancement: theory and practice》的读书笔记,全部内容可以点击这里。 1.语音增强(speech enhancement)主要从攻/防两面入手:quality + intelligibil 阅读全文
posted @ 2017-05-24 08:25 LeeLIn。 阅读(1565) 评论(1) 推荐(2) 编辑
摘要:作者:桂。 时间:2017-05-16 链接:http://www.cnblogs.com/xingshansi/p/6862683.html 前言 下午看到群里讨论有人提到这个问题,记录一下。 一、啸叫 定义 在平时跟别人用电脑语音聊天,声音传给你-再传给对方-再传给你,循环往复且不消失,这个就是 阅读全文
posted @ 2017-05-16 18:06 LeeLIn。 阅读(12120) 评论(0) 推荐(2) 编辑
摘要:作者:桂。 时间:2017-05-10 19:17:32 链接:http://www.cnblogs.com/xingshansi/p/6832219.html 一、环境 python3.5 Win8.1,64位 二、Wavenet安装 Wavenet安装环境: Tensorflow:1.0.1以上 阅读全文
posted @ 2017-05-10 20:01 LeeLIn。 阅读(2398) 评论(5) 推荐(1) 编辑
摘要:记录一下常用的数据库。 TIMIT也忘记当时从哪下的了,网上也没看到好一点的链接。TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音 阅读全文
posted @ 2017-05-07 09:29 LeeLIn。 阅读(7418) 评论(0) 推荐(1) 编辑