音频算法系列 - 随笔分类(第4页) - 虚生

语音开放平台简介

摘要：1.Nuance NVP Nuance是语音识别领域的老牌劲旅，除了语音识别技术外，还包扩语音合成、声纹识别等技术。Nuance Voice Platform(NVP)是Nuance公司推出的语音互联网平台，这是一个开放的、基于统一标准的语音平台产品。它能够支持客户公司已有的IT投资和基础设备，同时阅读全文

posted @ 2018-05-05 17:12 虚生阅读(588) 评论(0) 推荐(0) 编辑

语音开源代码简介

摘要：1.Kaldi Kaldi诞生于2009年的JohnsHopkins University，刚开始项目重点是子空间高斯模型（SGMM）建模和词汇学习抽样调查，代码也是基于HTK进行的开发，现在也是C++作为主要语言。但是随着更多参与者的加入，特别是对深度神经网络（DNN）的支持，让Kaldi的发展超阅读全文

posted @ 2018-05-05 17:11 虚生阅读(584) 评论(0) 推荐(0) 编辑

opus代码解析

摘要：opus的初始化函数如下所示，在初始化的过程中，从代码结构上来看，这里主要完成是内存的申请，基本参数的定义 cOpusEncoder *opus_encoder_create(opus_int32 Fs, int channels, int application, int *error) opus 阅读全文

posted @ 2018-01-20 14:48 虚生阅读(2180) 评论(0) 推荐(0) 编辑

OGG的孩子-有损音频编码opus

摘要：Opus是一个有损声音编码的格式，由Xiph.Org基金会开发，之后由互联网工程任务组（IETF）进行标准化，目标用希望用单一格式包含声音和语音，取代Speex和Vorbis，且适用于网络上低延迟的即时声音传输，标准格式定义于RFC 6716文件。Opus格式是一个开放格式，使用上没有任何专利或限阅读全文

posted @ 2018-01-19 09:41 虚生阅读(1164) 评论(1) 推荐(0) 编辑

ogg的孩子-无损音频编解码flac

摘要：flac是一款无损的音频压缩编码，它的特点是对音频文件进行无损压缩，目前是被很多软件及智能硬件产品所支持。从技术上来讲，该编解码的优点还是十分明显的，无损压缩，策略灵活，解码快速，硬件支持等特点都是在实际运用中是招招制敌，直击用户的痛点。从开发者的角度来讲，它只支持定点处理--为了确保音质不会在阅读全文

posted @ 2018-01-18 09:44 虚生阅读(576) 评论(1) 推荐(0) 编辑

音频科普---oggs

摘要：做为一个做音频的人，很多基础的东西还是要牢记的。最近一个客户用ogg格式的音频，感觉这个很陌生，就翻了这方面的资料。好比是认识一个大牛，只有在你有一个困扰你很久的困难问题被他瞬间解决的时候，才知道什么叫高手一样，在越来越深入了解ogg的情况下，才逐渐感觉到它的强大，它的神通广大。什么是ogg呢阅读全文

posted @ 2018-01-17 16:02 虚生阅读(1393) 评论(0) 推荐(0) 编辑

scikit-image 图像处理库介绍

摘要：今天学习图像处理的时候，无意中看到了scikit 软件包，抱着学习的态度，这里做个记录，方便以后翻阅。概念：scikit-image 是一种开源的用于图像处理的 Python 包。它包括分割，几何变换，色彩操作，分析，过滤等算法。它用作集成到python运算环境几何一些科学运算库（Numpy，S 阅读全文

posted @ 2017-11-24 10:51 虚生阅读(3468) 评论(0) 推荐(0) 编辑

一种基于python的人脸识别开源系统

摘要：今天在搜索人脸识别的文章时，无意中搜到一个比较开源代码，介绍说是这个系统人脸的识别率是比较高的，可以达到：99.38%。这么高的识别率，着实把我吓了一跳。抱着实事求是的态度。个人就做了一些验证和研究。按照github和网上的例子，安装成功后，使用里面的测试用例进行测试。从网上下载了十个人多图阅读全文

posted @ 2017-11-22 10:42 虚生阅读(10408) 评论(0) 推荐(0) 编辑

Introduction to CELP Coding

摘要：Speex is based on CELP, which stands for Code Excited Linear Prediction. This section attempts to introduce the principles behind CELP, so if you are 阅读全文

posted @ 2017-10-24 10:08 虚生阅读(351) 评论(0) 推荐(0) 编辑

提纲挈领webrtc之NS(noise suppression)模块

摘要：Noise suppression，就是大家说的降噪。这种降噪是把人声和非人声区分开来，把非人声当成噪声。一段包含人声和噪声的音频经过该模块处理，从理论上讲，只剩下人声了。 webrtc的NS在业内还是赫赫有名的，通过实际对比测试，我们发现webrtc的降噪的确是性能和稳定性都要高于同类开源算法阅读全文

posted @ 2017-10-16 17:37 虚生阅读(7067) 评论(0) 推荐(1) 编辑

提纲挈领webrtc之vad检测

摘要：顾名思义，VAD（Voice Activity Detection）算法的作用是检测是否是人的语音，它的使用范围极广，降噪，语音识别等领域都需要有vad检测。vad检测有很多方法，这里我们之介绍一下webrtc里面的vad检测。 webrtc的vad检测原理是根据人声的频谱范围，把输入的频谱分成阅读全文

posted @ 2017-10-13 23:03 虚生阅读(9497) 评论(1) 推荐(2) 编辑

提纲挈领webrtc音频处理算法之写在前面的话

摘要：最近工作用到了webrtc，发现webrtc是个宝库，里面有很多东西值得好好研究。搜了这方面不少资料，发现介绍使用webrtc的不少，但是针对里面一些算法研究的不多。特别是能把算法说的简洁明了的更是凤毛麟角。其实，想让我仔细的把每行代码都研究透也不太现实，作为一个使用者，也完全没有必要研究每阅读全文

posted @ 2017-10-13 22:20 虚生阅读(631) 评论(0) 推荐(1) 编辑

随笔分类 - 音频算法系列

公告

搜索

常用链接

我的标签

积分与排名

随笔分类 (781)

随笔档案 (995)

阅读排行榜

评论排行榜

推荐排行榜

最新评论