Fork me on GitHub

随笔 - 997  文章 - 5  评论 - 181  阅读 - 300万 

随笔分类 -  音频算法系列

针对主流的音频算法,webrtc,speex,sox等开源软件进行分析
单麦克风远场语音降噪解决方案
摘要:一 前记 通常来说远场语音的作用距离是在1-10米之间,远场语音识别技术主要通过麦克风阵列向声源方位拾音。但是,在大多数的应用场景中,由于声源附近存在电视噪、音乐噪声、电话噪声以及墙壁等障碍物的存在,产生了多径反射、混响效应以及背景噪声等加大了远场语音信号的处理难度。尤其是说话人距离麦克风3米以上, 阅读全文
posted @ 2020-05-17 21:43 虚生 阅读(2395) 评论(0) 推荐(0) 编辑
个性化的远场降噪录音解决方案
摘要:需求分析 随着AIOT近些年的迅猛发展,业届对声音的拾取和处理的需求也越来越大了。各种五花八门的需求如雨后春笋般冒出,传统的音频公司已经无法满足新时代的音频处理需求了。在这个节点上,新公司还没有完全抢占市场。在新旧产品更迭之际,音频处理和分析这块出现了巨大的需求窗口。 竞品分析 知己知彼,百战不殆。 阅读全文
posted @ 2020-03-29 17:50 虚生 阅读(719) 评论(0) 推荐(0) 编辑
音频处理EQ的基本概念
摘要:我们通常所说的人声,歌声以及乐声都是一个复合音,也就是由声音的基音和一系列的泛音所构成的。这些泛音都是基音频率的倍数,物理学中叫分音,电声学中叫谐波,音乐中则把它们称做泛音。可以说,泛音对音色的特性有着非常重要的影响。它们的数量以及幅度的不同构成音色的频率特性曲线。这条曲线就体现了音色的表现力。一般 阅读全文
posted @ 2019-03-23 09:50 虚生 阅读(8720) 评论(0) 推荐(2) 编辑
webrtc aecd算法解析一(原理分析)
摘要:webrtc的回声抵消(aec、aecm)算法主要包括以下几个重要模块: 回声时延估计 NLMS(归一化最小均方自适应算法) NLP(非线性滤波) CNG(舒适噪声产生) 回声时延估计 这张图很多东西可以无视,我们重点看T0,T1,T2三项。 T0代表着声音从扬声器传到麦克风的时间,这个时间可以忽略 阅读全文
posted @ 2019-03-14 11:30 虚生 阅读(5612) 评论(1) 推荐(0) 编辑
DCT(离散余弦变换)算法原理和源码
摘要:原理: 离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里 阅读全文
posted @ 2018-11-26 09:20 虚生 阅读(10370) 评论(2) 推荐(0) 编辑
声纹识别开源代码工具
摘要:声纹识别,也称为说话人识别,主要的开源工具有: 1.MSR Identity Toolkit ,微软开源的工具箱,MATLAB版本,包含GMM-UBM和I-vector的demo,简单易用。 2.Alize,主要包括GMM-UBM、I-vector and JFA三种传统的方法,C++版,简单易用。 阅读全文
posted @ 2018-11-22 14:23 虚生 阅读(4348) 评论(0) 推荐(0) 编辑
Ubuntu 16.04安装下HTK--亲测ok
摘要:1、首先需要安装一些32位库sudo apt-get install libx11-dev:i386 libx11-dev sudo apt-get install g++-multilib sudo apt-get install osspd 2.下载HTK src和samples http:// 阅读全文
posted @ 2018-11-20 13:48 虚生 阅读(999) 评论(0) 推荐(0) 编辑
孤立词识别的几种有效方案
摘要:(1)采用动态规划(Dynamic Programming)的方法。这是一种运算量较大,但技术上较简单,正识率也较高的方法。其中的失真测度可以用欧氏距离(适于短时谱或倒谱参数),也可以用对数似然比距离(适于LPC参数).决策方法可用最近邻域准则. (2)采用矢量量化(Vector Quantizat 阅读全文
posted @ 2018-11-20 10:02 虚生 阅读(1981) 评论(0) 推荐(0) 编辑
Ubuntu下安装和使用开源的tts软件Flite
摘要:Flite是什么? Flite是一个小型、快速的TTS系统,是festival的C版本,可用于嵌入式系统,支持WinCE、Palm OS 等。 下载方法: 安装指南: tar zxvf flite-XXX.tar.gz cd flite-XXX ./configure (可选项 --prefix=/ 阅读全文
posted @ 2018-11-01 19:58 虚生 阅读(2293) 评论(0) 推荐(0) 编辑
语音识别六十年
摘要:语音识别的研究起源可以追溯到上世纪 50 年代,AT&T贝尔实验室的 Audry 系统率先实现了十个英文数字识别。 从上世纪 60 年代开始,CMU 的 Reddy 开始进行连续语音识别的开创性工作。但是这期间进展缓慢,以至于贝尔实验室的约翰·皮尔斯(John Pierce)认为语音识别是几乎不可能 阅读全文
posted @ 2018-10-29 13:47 虚生 阅读(960) 评论(0) 推荐(1) 编辑
mfcc的特征提取python 代码实现和解析
摘要:测试结果: 阅读全文
posted @ 2018-10-15 14:13 虚生 阅读(4050) 评论(0) 推荐(0) 编辑
MFCC特征参数提取流程概述
摘要:一 概念概述: 在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频 阅读全文
posted @ 2018-10-15 14:05 虚生 阅读(9758) 评论(0) 推荐(0) 编辑
python 读取wav 音频文件的两种方式
摘要:python 中,常用的有两种可以读取wav音频格式的方法,如下所示: 阅读全文
posted @ 2018-10-15 13:36 虚生 阅读(5684) 评论(0) 推荐(0) 编辑
python 实现wav的波形显示(时域和频域)
摘要:音频处理中,经常要看一下啊频域图是什么样子的,这里自己写了一个小程序,可以完美的同步显示时域和频域图,直接上代码: 直接上图看结果: 这个只能对单声道16k采样的wav格式做处理,不过,只要稍微加一更改,就可以处理别的了。具体改代码的事情,还是谁用谁做吧。做个程序员,总要付出一些代价的。 每日一言: 阅读全文
posted @ 2018-10-13 16:54 虚生 阅读(9998) 评论(3) 推荐(1) 编辑
wav转txt格式的代码实现(c,python)
摘要:平时经常做音频算法,经常用得到wav转txt的转换,这里就做个备忘,自己写了一些小代码来实现这个目标: 第一个是c代码的实现: 第二个是python的代码: python和c代码放在一起的时候,才会发现,它是多么的简洁,看来以后要经常使用了。把python作为一个重点使用的语言来重视起来。 备忘问题 阅读全文
posted @ 2018-10-12 10:05 虚生 阅读(3134) 评论(0) 推荐(0) 编辑
音频格式RAW和PCM区别和联系
摘要:定义: RAW:在一些外国品牌的播放机中名为 BitSream,我们通常称为“源码”。意义是把光盘上的音频格式不加处理地、“原汁原味”地从同轴和光纤输出。这就要求用户的功放具备这种音频格式的解码功能。PCM: 名为“脉冲调制编码”,它的作用是当前的将音频格式转换为PCM格式,然后输出。CD就是采用了 阅读全文
posted @ 2018-09-17 20:11 虚生 阅读(11841) 评论(0) 推荐(0) 编辑
本地语音识别开源软件pocketsphinx调试总结
摘要:1问题一: fatal error: pocketsphinx.h: No such file or directory 解决方法: 阅读全文
posted @ 2018-09-15 15:59 虚生 阅读(405) 评论(0) 推荐(0) 编辑
Setting Up CMU Sphinx (PocketSphinx) on Ubuntu 14.04
该文被密码保护。
posted @ 2018-08-30 10:54 虚生 阅读(1) 评论(0) 推荐(0) 编辑
pocketsphinx 移植问题解决备案
摘要:一 编译问题: 1 _continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory 解决方法:sudo 阅读全文
posted @ 2018-08-30 10:52 虚生 阅读(625) 评论(0) 推荐(0) 编辑
数字音频处理的瑞士军刀sox的音效算法以及用法
摘要:SoX可以明确的写出需要的音频处理的效果,可以方便的重复使用,在目前的条件下是一个比较方便使用的项目。不过相信随着Audacity的发展,很有可能在未来可以逐渐替代SoX的功能。 对于SoX主要关心的是她的音频效果功能,因为文件格式转换,播放,录音功能在ffmpeg中已经更大程度上的得到实现了。So 阅读全文
posted @ 2018-07-11 11:14 虚生 阅读(2614) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示