Fork me on GitHub

随笔 - 997  文章 - 5  评论 - 181  阅读 - 300万 

随笔分类 -  音频算法系列

针对主流的音频算法,webrtc,speex,sox等开源软件进行分析
语音开放平台简介
摘要:1.Nuance NVP Nuance是语音识别领域的老牌劲旅,除了语音识别技术外,还包扩语音合成、声纹识别等技术。Nuance Voice Platform(NVP)是Nuance公司推出的语音互联网平台,这是一个开放的、基于统一标准的语音平台产品。它能够支持客户公司已有的IT投资和基础设备,同时 阅读全文
posted @ 2018-05-05 17:12 虚生 阅读(588) 评论(0) 推荐(0) 编辑
语音开源代码简介
摘要:1.Kaldi Kaldi诞生于2009年的JohnsHopkins University,刚开始项目重点是子空间高斯模型(SGMM)建模和词汇学习抽样调查,代码也是基于HTK进行的开发,现在也是C++作为主要语言。但是随着更多参与者的加入,特别是对深度神经网络(DNN)的支持,让Kaldi的发展超 阅读全文
posted @ 2018-05-05 17:11 虚生 阅读(584) 评论(0) 推荐(0) 编辑
opus代码解析
摘要:opus的初始化函数如下所示,在初始化的过程中,从代码结构上来看,这里主要完成是内存的申请,基本参数的定义 cOpusEncoder *opus_encoder_create(opus_int32 Fs, int channels, int application, int *error) opus 阅读全文
posted @ 2018-01-20 14:48 虚生 阅读(2180) 评论(0) 推荐(0) 编辑
OGG的孩子-有损音频编码opus
摘要:Opus是一个有损声音编码的格式,由Xiph.Org基金会开发,之后由互联网工程任务组(IETF)进行标准化,目标用希望用单一格式包含声音和语音, 取代Speex和Vorbis,且适用于网络上低延迟的即时声音传输,标准格式定义于RFC 6716文件。Opus格式是一个开放格式,使用上没有任何专利或限 阅读全文
posted @ 2018-01-19 09:41 虚生 阅读(1164) 评论(1) 推荐(0) 编辑
ogg的孩子-无损音频编解码flac
摘要:flac是一款无损的音频压缩编码,它的特点是对音频文件进行无损压缩,目前是被很多软件及智能硬件产品所支持。 从技术上来讲,该编解码的优点还是十分明显的,无损压缩,策略灵活,解码快速,硬件支持等特点都是在实际运用中是招 招制敌,直击用户的痛点。从开发者的角度来讲,它只支持定点处理--为了确保音质不会在 阅读全文
posted @ 2018-01-18 09:44 虚生 阅读(576) 评论(1) 推荐(0) 编辑
音频科普---oggs
摘要:做为一个做音频的人,很多基础的东西还是要牢记的。最近一个客户用ogg格式的音频,感觉这个很陌生,就翻了这方面的 资料。好比是认识一个大牛,只有在你有一个困扰你很久的困难问题被他瞬间解决的时候,才知道什么叫高手一样,在越来越深入 了解ogg的情况下,才逐渐感觉到它的强大,它的神通广大。 什么是ogg呢 阅读全文
posted @ 2018-01-17 16:02 虚生 阅读(1393) 评论(0) 推荐(0) 编辑
scikit-image 图像处理库介绍
摘要:今天学习图像处理的时候,无意中看到了scikit 软件包,抱着学习的态度,这里做个记录,方便以后翻阅。 概念:scikit-image 是一种开源的用于图像处理的 Python 包。它包括分割,几何变换,色彩操作,分析,过滤等算法。 它用作集成到python运算环境几何一些科学运算库(Numpy,S 阅读全文
posted @ 2017-11-24 10:51 虚生 阅读(3468) 评论(0) 推荐(0) 编辑
一种基于python的人脸识别开源系统
摘要:今天在搜索人脸识别的文章时,无意中搜到一个比较开源代码,介绍说是这个系统人脸的识别率 是比较高的,可以达到:99.38%。这么高的识别率,着实把我吓了一跳。抱着实事求是的态度。个人 就做了一些验证和研究。 按照github和网上的例子,安装成功后,使用里面的测试用例进行测试。从网上下载了十个人多 图 阅读全文
posted @ 2017-11-22 10:42 虚生 阅读(10408) 评论(0) 推荐(0) 编辑
Introduction to CELP Coding
摘要:Speex is based on CELP, which stands for Code Excited Linear Prediction. This section attempts to introduce the principles behind CELP, so if you are 阅读全文
posted @ 2017-10-24 10:08 虚生 阅读(351) 评论(0) 推荐(0) 编辑
提纲挈领webrtc之NS(noise suppression)模块
摘要:Noise suppression,就是大家说的降噪。这种降噪是把人声和非人声区分开来,把非人声当成噪声。 一段包含人声和噪声的音频经过该模块处理,从理论上讲,只剩下人声了。 webrtc的NS在业内还是赫赫有名的,通过实际对比测试,我们发现webrtc的降噪的确是性能和稳定性 都要高于同类开源算法 阅读全文
posted @ 2017-10-16 17:37 虚生 阅读(7067) 评论(0) 推荐(1) 编辑
提纲挈领webrtc之vad检测
摘要:顾名思义,VAD(Voice Activity Detection)算法的作用是检测是否是人的语音,它的使用 范围极广,降噪,语音识别等领域都需要有vad检测。vad检测有很多方法,这里我们之介绍一 下webrtc里面的vad检测。 webrtc的vad检测原理是根据人声的频谱范围,把输入的频谱分成 阅读全文
posted @ 2017-10-13 23:03 虚生 阅读(9497) 评论(1) 推荐(2) 编辑
提纲挈领webrtc音频处理算法之写在前面的话
摘要:最近工作用到了webrtc,发现webrtc是个宝库,里面有很多东西值得好好研究。 搜了这方面不少资料,发现介绍使用webrtc的不少,但是针对里面一些算法研究的 不多。特别是能把算法说的简洁明了的更是凤毛麟角。 其实,想让我仔细的把每行代码都研究透也不太现实,作为一个使用者,也完全 没有必要研究每 阅读全文
posted @ 2017-10-13 22:20 虚生 阅读(631) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示