随笔分类 -  语音处理

使用不同方式处理语音,语音前处理
摘要:# 一、前言 我想认真写好快速傅里叶变换(Fast Fourier Transform,FFT),所以这篇文章会由浅到细,由窄到宽的讲解,但是傅里叶变换对于寻常人并不是很容易理解的,所以对于基础不牢的人我会通过前言普及一下相关知识。 我们复习一下三角函数的标准式:$$y=A\cos (\omega 阅读全文
posted @ 2023-06-13 17:21 野哥李 阅读(764) 评论(0) 推荐(0) 编辑
摘要:# 音频信号的读写、播放及录音 python已经支持WAV格式的书写,而实时的声音输入输出需要安装pyAudio(http://people.csail.mit.edu/hubert/pyaudio)。最后我们还将使用pyMedia(http://pymedia.org)进行Mp3的解码和播放。 音 阅读全文
posted @ 2023-05-17 17:31 野哥李 阅读(418) 评论(0) 推荐(0) 编辑
摘要:librosa是一个非常强大的python语音信号处理的第三方库,本文参考的是librosa的官方文档,本文主要总结了一些重要,对我来说非常常用的功能。学会librosa后再也不用python去实现那些复杂的算法了,只需要一句语句就能轻松实现。 先总结一下本文中常用的专业名词:sr:采样率、hop_ 阅读全文
posted @ 2023-05-17 11:13 野哥李 阅读(258) 评论(0) 推荐(0) 编辑
摘要:数字信号 连续时间信号:在连续时间范围内定义的信号,信号的幅度可以是连续的(模拟信号),也可以是离散的 离散时间信号:时间为离散变量的信号,即独立变量时间被量化了,而幅度仍是连续变化的 数字信号:时间离散并且幅度量化的信号,如果是二进制量化,只有1,0两种模式的信号。四进制数字信号只有四种取值,以此 阅读全文
posted @ 2023-05-15 17:44 野哥李 阅读(79) 评论(0) 推荐(0) 编辑
摘要:简介 音频时域波形具有以下特征:音调,响度,质量。我们在进行数据增强时,最好只做一些小改动,使得增强数据和源数据存在较小差异即可,切记不能改变原有数据的结构,不然将产生“脏数据”,通过对音频数据进行数据增强,能有助于我们的模型避免过度拟合并变得更加通用。 经过实验发现对声波的以下改变是有用的:Noi 阅读全文
posted @ 2023-05-06 10:43 野哥李 阅读(936) 评论(1) 推荐(1) 编辑
摘要:p.s.本文无论是cos还是sin,都统一用“正弦波”(Sine Wave)一词来代表简谐波。一、什么是频域从我们出生,我们看到的世界都以时间贯穿,股票的走势、人的身高、汽车的轨迹都会随着时间发生改变。这种以时间作为参照来观察动态世界的方法我们称其为时域分析。而我们也想当然的认为,世间万物都在随着时 阅读全文
posted @ 2023-04-28 16:15 野哥李 阅读(51) 评论(0) 推荐(0) 编辑
摘要:语音处理加窗分帧 一、分帧 语音数据和视频数据不同,本没有帧的概念,但是为了传输与存储,我们采集的音频数据都是一段一段 的。为了程序能够进行批量处理,会根据指定的长度(时间段或者采样数)进行分段,结构化为我们编程 的数据结构,这就是分帧。 二、帧移 由于我们常用的信号处理方法都要求信号是连续的,也就 阅读全文
posted @ 2023-04-28 11:46 野哥李 阅读(999) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示