音频数据波形图

音频知识

1) 通道数

又称声道数。是在采集（录制）声音时引入的概念，即用几个通道去录制声音。一般来说，单声道和双声道的音频文件较为常见。例如在声源的不同位置放置通道去录制，则可以获得多通道的音频数据。

2) 采样率

即每秒钟内采集的样本个数，每个通道分别采集。音频文件的采样率通常较高，例如44100Hz、32000Hz等。

3) 位深

又称之为量化精度、位宽，表示一个杨本值采用多少bit来表示，用的bit越多则越接近样本的原值。例如若用3个bit表示，则只有2的3次方，也就是8个不同的值，而若用16bit、24bit或更多的bit去量化样本值，则表示的不同指就越多，从而音频听起来就更逼真。

4) 帧数

帧数也就是样本个数。对于“总帧数”要根据上下文来判断，可以是一个通道（声道）的总帧数，也可以是所有通道的总帧数。计算公式为：样本个数=文件的大小/位深精度/通道数。

5) 波形图

又称振幅图，是音频的振幅（或能量）这个维度的图形表达。波形图的横坐标一般为时间，纵坐标一般为dB(即分贝)来表示；有的时候只关心振幅的趋势，那就对振幅进行归一化为[-1,1]范围内。

python 代码

import wave
from pydub import AudioSegment
import numpy as np
import matplotlib.pyplot as plt

AudioSegment.converter = r"C:\Users\v-yunhgu\Desktop\VoiceTest\FFmpeg\ffmpeg.exe"
AudioSegment.ffprobe = r"C:\Users\v-yunhgu\Desktop\VoiceTest\FFmpeg\ffprobe.exe"


def ConvertAudio2Wav(path):
    # 将mp3 音频转为wav，因为mp3格式经过了压缩，导致失去了很多信息
    audio = AudioSegment.from_mp3(path)
    audio.export('temp.wav', format='wav')

def DrawWav():
    f = wave.open(r"temp.wav", "rb")
    # 读取音频数据，并把数据转化为字符串形式
    params = f.getparams()
    nchannels, sampwidth, framerate, nframes = params[:4]
    print(f"nchannels: {nchannels},sampwidth: {sampwidth},framerate: {framerate},nframes: {nframes}")
    str_data = f.readframes(nframes)
    f.close()
    # 字符串转化为整数
    wave_data = np.fromstring(str_data, dtype=np.int16)
    # 归一化数据
    wave_data = wave_data*1.0/(max(abs(wave_data)))
    # 将数据转化为二维向量
    wave_data = np.reshape(wave_data, [nframes, nchannels*2])
    print(wave_data.shape)
    # 通过取样点数和取样频率计算出每个取样的时间。
    time = np.arange(0, nframes)/framerate

    print(f"time_len:{len(time)} time:{time} shape:{time.shape}")
    plt.figure(1)
    plt.plot(time, wave_data)
    plt.xlabel("time/s")
    plt.title('Wave')
    plt.show()


if __name__ == "__main__":
    wavPath = r"C:\Users\v-yunhgu\Desktop\VoiceTest\voice-Task\0000000007.wav"
    ConvertAudio2Wav(wavPath)
    DrawWav()

posted @ 2020-11-27 15:36 不能说的秘密阅读(2711) 评论(0) 收藏举报

刷新页面返回顶部

不能说的秘密

Hell is other people