06 2022 档案
kaldi mfcc特征的提取,pitch(音调)
摘要:从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果音频长度是10秒,那么raw waveform中就有160000个值,值的大小通常表示的是振幅。 提取的特征最终以
espnet的安装
摘要:1.首先是需要换源: https://www.cnblogs.com/Uriel-w/p/16387090.html 2.创建conda环境: 创建环境:conda create -n espnet python=3.7.3退出环境:conda deactivate删除环境:# conda remo
conda默认源切换为国内下载源
摘要:在安装各种环境过程中,经常会出现使用conda install时下载速度极慢,为了解决这一问题,可以选择将conda切换为国内下载源,这里我们使用清华园: 在终端中输入以下几行配置命令: conda config --add channels https://mirrors.tuna.tsinghu
Squeeze-and-Excitation
摘要:SENet-2017 Squeeze-and-Excitation Networks 最后一届 ImageNet 2017 竞赛 Image Classification 任务的冠军,并被邀请在 CVPR 2017 的 workshop(Beyond ImageNet)中给出算法介绍. 核心思想 S