音频算法系列 - 随笔分类(第3页) - 虚生

单麦克风远场语音降噪解决方案

摘要：一前记通常来说远场语音的作用距离是在1-10米之间，远场语音识别技术主要通过麦克风阵列向声源方位拾音。但是，在大多数的应用场景中，由于声源附近存在电视噪、音乐噪声、电话噪声以及墙壁等障碍物的存在，产生了多径反射、混响效应以及背景噪声等加大了远场语音信号的处理难度。尤其是说话人距离麦克风3米以上，阅读全文

posted @ 2020-05-17 21:43 虚生阅读(2395) 评论(0) 推荐(0) 编辑

个性化的远场降噪录音解决方案

摘要：需求分析随着AIOT近些年的迅猛发展，业届对声音的拾取和处理的需求也越来越大了。各种五花八门的需求如雨后春笋般冒出，传统的音频公司已经无法满足新时代的音频处理需求了。在这个节点上，新公司还没有完全抢占市场。在新旧产品更迭之际，音频处理和分析这块出现了巨大的需求窗口。竞品分析知己知彼，百战不殆。阅读全文

posted @ 2020-03-29 17:50 虚生阅读(719) 评论(0) 推荐(0) 编辑

音频处理EQ的基本概念

摘要：我们通常所说的人声，歌声以及乐声都是一个复合音，也就是由声音的基音和一系列的泛音所构成的。这些泛音都是基音频率的倍数，物理学中叫分音，电声学中叫谐波，音乐中则把它们称做泛音。可以说，泛音对音色的特性有着非常重要的影响。它们的数量以及幅度的不同构成音色的频率特性曲线。这条曲线就体现了音色的表现力。一般阅读全文

posted @ 2019-03-23 09:50 虚生阅读(8720) 评论(0) 推荐(2) 编辑

webrtc aecd算法解析一（原理分析）

摘要：webrtc的回声抵消(aec、aecm)算法主要包括以下几个重要模块：回声时延估计 NLMS(归一化最小均方自适应算法) NLP（非线性滤波） CNG(舒适噪声产生）回声时延估计这张图很多东西可以无视，我们重点看T0，T1，T2三项。 T0代表着声音从扬声器传到麦克风的时间，这个时间可以忽略阅读全文

posted @ 2019-03-14 11:30 虚生阅读(5612) 评论(1) 推荐(0) 编辑

DCT(离散余弦变换)算法原理和源码

摘要：原理：离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换，它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换，这个离散傅里阅读全文

posted @ 2018-11-26 09:20 虚生阅读(10370) 评论(2) 推荐(0) 编辑

声纹识别开源代码工具

摘要：声纹识别，也称为说话人识别，主要的开源工具有： 1.MSR Identity Toolkit ，微软开源的工具箱，MATLAB版本，包含GMM-UBM和I-vector的demo，简单易用。 2.Alize，主要包括GMM-UBM、I-vector and JFA三种传统的方法，C++版，简单易用。阅读全文

posted @ 2018-11-22 14:23 虚生阅读(4348) 评论(0) 推荐(0) 编辑

Ubuntu 16.04安装下HTK－－亲测ok

摘要：1、首先需要安装一些32位库sudo apt-get install libx11-dev:i386 libx11-dev sudo apt-get install g++-multilib sudo apt-get install osspd 2.下载HTK src和samples http:// 阅读全文

posted @ 2018-11-20 13:48 虚生阅读(999) 评论(0) 推荐(0) 编辑

孤立词识别的几种有效方案

摘要：（1）采用动态规划（Dynamic Programming）的方法。这是一种运算量较大，但技术上较简单，正识率也较高的方法。其中的失真测度可以用欧氏距离(适于短时谱或倒谱参数)，也可以用对数似然比距离(适于LPC参数)．决策方法可用最近邻域准则．（2）采用矢量量化（Vector　Quantizat 阅读全文

posted @ 2018-11-20 10:02 虚生阅读(1981) 评论(0) 推荐(0) 编辑

Ubuntu下安装和使用开源的tts软件Flite

摘要：Flite是什么？ Flite是一个小型、快速的TTS系统，是festival的C版本，可用于嵌入式系统，支持WinCE、Palm OS 等。下载方法：安装指南： tar zxvf flite-XXX.tar.gz cd flite-XXX ./configure (可选项 --prefix=/ 阅读全文

posted @ 2018-11-01 19:58 虚生阅读(2293) 评论(0) 推荐(0) 编辑

语音识别六十年

摘要：语音识别的研究起源可以追溯到上世纪 50 年代，AT&T贝尔实验室的 Audry 系统率先实现了十个英文数字识别。从上世纪 60 年代开始，CMU 的 Reddy 开始进行连续语音识别的开创性工作。但是这期间进展缓慢，以至于贝尔实验室的约翰·皮尔斯（John Pierce）认为语音识别是几乎不可能阅读全文

posted @ 2018-10-29 13:47 虚生阅读(960) 评论(0) 推荐(1) 编辑

mfcc的特征提取python 代码实现和解析

摘要：测试结果：阅读全文

posted @ 2018-10-15 14:13 虚生阅读(4050) 评论(0) 推荐(0) 编辑

MFCC特征参数提取流程概述

摘要：一　概念概述：在语音识别（Speech Recognition）和话者识别（Speaker Recognition）方面，最常用到的语音特征就是梅尔倒谱系数（Mel-scale Frequency Cepstral Coefficients，简称MFCC）。根据人耳听觉机理的研究发现，人耳对不同频阅读全文

posted @ 2018-10-15 14:05 虚生阅读(9758) 评论(0) 推荐(0) 编辑

python 读取wav 音频文件的两种方式

摘要：python 中，常用的有两种可以读取wav音频格式的方法，如下所示：阅读全文

posted @ 2018-10-15 13:36 虚生阅读(5684) 评论(0) 推荐(0) 编辑

python 实现wav的波形显示（时域和频域）

摘要：音频处理中，经常要看一下啊频域图是什么样子的，这里自己写了一个小程序，可以完美的同步显示时域和频域图，直接上代码：直接上图看结果：这个只能对单声道１6k采样的wav格式做处理，不过，只要稍微加一更改，就可以处理别的了。具体改代码的事情，还是谁用谁做吧。做个程序员，总要付出一些代价的。每日一言：阅读全文

posted @ 2018-10-13 16:54 虚生阅读(9998) 评论(3) 推荐(1) 编辑

wav转txt格式的代码实现(c,python)

摘要：平时经常做音频算法，经常用得到wav转txt的转换，这里就做个备忘，自己写了一些小代码来实现这个目标：第一个是c代码的实现：第二个是python的代码： python和c代码放在一起的时候，才会发现，它是多么的简洁，看来以后要经常使用了。把python作为一个重点使用的语言来重视起来。备忘问题阅读全文

posted @ 2018-10-12 10:05 虚生阅读(3134) 评论(0) 推荐(0) 编辑

音频格式RAW和PCM区别和联系

摘要：定义: RAW：在一些外国品牌的播放机中名为 BitSream，我们通常称为“源码”。意义是把光盘上的音频格式不加处理地、“原汁原味”地从同轴和光纤输出。这就要求用户的功放具备这种音频格式的解码功能。PCM：名为“脉冲调制编码”，它的作用是当前的将音频格式转换为PCM格式，然后输出。CD就是采用了阅读全文

posted @ 2018-09-17 20:11 虚生阅读(11841) 评论(0) 推荐(0) 编辑

本地语音识别开源软件pocketsphinx调试总结

摘要：１问题一： fatal error: pocketsphinx.h: No such file or directory 解决方法：阅读全文

posted @ 2018-09-15 15:59 虚生阅读(405) 评论(0) 推荐(0) 编辑

Setting Up CMU Sphinx (PocketSphinx) on Ubuntu 14.04

该文被密码保护。

posted @ 2018-08-30 10:54 虚生阅读(1) 评论(0) 推荐(0) 编辑

pocketsphinx 移植问题解决备案

摘要：一编译问题： 1 _continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory 解决方法：sudo 阅读全文

posted @ 2018-08-30 10:52 虚生阅读(625) 评论(0) 推荐(0) 编辑

数字音频处理的瑞士军刀sox的音效算法以及用法

摘要：SoX可以明确的写出需要的音频处理的效果，可以方便的重复使用，在目前的条件下是一个比较方便使用的项目。不过相信随着Audacity的发展，很有可能在未来可以逐渐替代SoX的功能。对于SoX主要关心的是她的音频效果功能，因为文件格式转换，播放，录音功能在ffmpeg中已经更大程度上的得到实现了。So 阅读全文

posted @ 2018-07-11 11:14 虚生阅读(2614) 评论(1) 推荐(0) 编辑

随笔分类 - 音频算法系列

公告

搜索

常用链接

我的标签

积分与排名

随笔分类 (781)

随笔档案 (995)

阅读排行榜

评论排行榜

推荐排行榜

最新评论