摘要:
## 1.正弦信号 A single sinusoid of amplitude A and frequency $\omega_{0}=2\pi f_{0}/F_{s}$ $$\begin{array}{ll}x_{0}[t] &=Acos(\omega_{0}t)\\ &=\frac{A}{2} 阅读全文
摘要:
Abstract 水声分类是一个具有挑战性的问题,因为在海洋环境中存在高背景噪声和复杂的声音传播模式。过去几年提出的各种算法都使用了自己私人收集的数据集进行设计和验证。这些数据尚未公开。为了开展这一领域的研究,迫切需要公开可用的数据集。为了弥补这一差距,我们构建并展示了一个名为DeepShip的水声 阅读全文
摘要:
评估通常是在面对新数据时估计被测系统的性能。为了进行客观的评价,系统输入以前未见过的数据,这些数据有参考注释。然后将系统输出与参考进行比较,以计算其性能的度量。性能意味着什么,以及应该如何测量它可能会因所开发系统的规格和要求而有所不同:我们可以测量精度来反映系统正确分类或检测声音的频率,或者我们可以 阅读全文
摘要:
Audio Pattern Recognition includes: audio tagging acoustic scene classification music classification speech emotion classification sound event detecti 阅读全文
摘要:
What enables the ImageNet pretrained models to learn useful audio representations, we systematically study how much of pretrained weights is useful fo 阅读全文
摘要:
Python 的日志记录工具 阅读全文
摘要:
在这里,我们报告了集成预定义的Gabor滤波器和训练有素的卷积神经网络来生成一个更健壮的特征,称为GCNN。典型的CNN架构使用共享权重来过滤接受域,建模频谱的局部特征。这个过滤过程允许我们将2D Gabor滤波器集成到CNN拓扑中。我们对CNN的接受野进行了修改,采用了几个符合Gabor滤波特征的 阅读全文
摘要:
自然环境的长时间记录在被动监测动物多样性方面有许多优点。现在,技术的进步使收集的音频远远超过可以收听的音频,因此需要开发可扩展的方法来区分信号和噪声。使用自动物种识别器的计算方法在精度上有所提高,但需要相当多的编码专业知识。环境记录的内容是不受约束的,机器学习所需的标记数据集的创建是一项耗时、昂贵的 阅读全文
摘要:
The earlier layers of CNNs are similar to Gabor filters [1], [29]. [1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with de 阅读全文
摘要:
2018,GBFB(spectro-temporal Gabor filter bank) 语音鲁棒特征又可以划分为基于统计特征的鲁棒特征和基于听觉机理的鲁棒特征这2大类。 与统计特性的特征不同,基于生物机理的声学特征提取尝试模拟生理器官对语音的感知来描述声学特征,常见的特征有LPCC[6],MFC 阅读全文
摘要:
声学数据为生物学、通信、海洋和地球科学等领域提供了科学和工程方面的见解。我们调查了包括深度学习在内的机器学习(ML)在声学领域的最新进展和变革潜力。ML是一个广泛的技术家族,通常基于统计学,用于自动检测和利用数据中的模式。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现 阅读全文
摘要:
声呐员如何“听”出目标的型号、航速、航向 频率分析, 水面舰艇、潜艇、反潜机的声呐员7x24小时都会做的事。 在声呐显控台上能看到LOFAR图(低频分析图),带有瀑布历史的频谱分析仪 声呐员需要把这些引擎频率线,柴油机,6缸柴油机气缸点火频率,间距,每个气缸每秒点火的次数 柴油机分3种基本类型:2冲 阅读全文
摘要:
书名: 《海洋观测技术=MARINE OBSERVATION TECHNIQUES》 作者: 任杰编著 当前第:118页 水声通信信道是属于随机的时空频变参、多途效应明显、传输衰减严重、噪声级较高、信号传播速度较低和严格带限的一类特异通道,与一般无线通信信道差异明显。 (1)多径效应又叫多途效应。多 阅读全文
摘要:
书名: 《现代汽车振动与噪声分析技术》
作者: 靳畅编著
当前第:64页 阅读全文
摘要:
paper Abstract 在执行水声目标检测任务时,需要对目标数N进行计数,当N大于1时进行声源分离,并从分离出的噪声中提取每个目标的运动参数(如轴频或FO)。尽管深度学习方法在图像解译中被广泛采用,但它在很大程度上依赖于输入数据或特征的形式或质量,特别是在强环境噪声和多路径效应阻碍精确目标检测 阅读全文
摘要:
10.1109/ACCESS.2019.2923806 阅读全文
摘要:
An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks 阅读全文
摘要:
LOFAR (Low frequency analysis and recording)谱可反映信号的非平稳特性,进而可提取信号中的宽带线谱分布特征。但是轴频及其倍频却因为基本上都淹没在低频宽带噪声中而无法直接获取。 而舰船宽带噪声高频段存在调制现象,DEMON (Detection of Enve 阅读全文
摘要:
Abstract Gradient-weighted Class Activation Mapping, uses the gradients of any target concept flowing into the final convolutional layer to prodece a 阅读全文
摘要:
1. What CNNs Can Do 2. Image Classification Different lighting, contrast, viewpoints, etc. This is hard for traditional methods like multi-layer perce 阅读全文
摘要:
Introduction 深度卷积神经网络(DCNNs)在字符识别、目标检测、人脸识别和语义分割等各个领域都取得了一系列突破。然而,由于缺乏为空间几何变换设计的特定模块,学习到的特征对空间几何变换的鲁棒性不够。虽然最大池化层[2]使dcnn具有处理尺度变化和适度旋转的能力,但如果没有变换编码机制,则 阅读全文
摘要:
Abstract 传统滤波器(如Gabor滤波器)的设计主要采用可调控的特性,并赋予特征处理空间变换的能力。然而,这些优秀的特性在目前流行的深度卷积神经网络(DCNNs)中还没有得到很好的探索。在本文中,我们提出了一种新的深度模型,称为Gabor卷积网络(GCNs或Gabor cnn),该模型将Ga 阅读全文
摘要:
李沐https://www.bilibili.com/video/BV1h54y1L7oe?p=1&vd_source=6967bd2a7c6f1367dc3a18fd8602177a 阅读全文
摘要:
GFB is a recent feature designed for robust ASR by taking into account the spectrotemporal modulation frequencies. To derive GFB, we compute the log m 阅读全文
摘要:
Example of ellipsis use: a = np.arange(6).reshape((3,2)) b = np.arange(12).reshape((4,3)) np.einsum('ki,jk->ij', a, b) array([[10, 28, 46, 64], [13, 4 阅读全文
摘要:
The package pyfilterbank provides tools for the acousticians and audiologists working with python. 阅读全文
摘要:
Gammatone滤波器组是一个标准的耳蜗听觉滤波器,其滤波器的时域脉冲响应为: $$g_{i}(t)=At^{n-1}exp(-2\pi b_{i}t)cos(2\pi f_{i}+\phi_{i})U(t),t\geq0,1\leq i\leq N$$ 其中,$A$为滤波器增益;$f_{i}$是 阅读全文
摘要:
https://qiita.com/tmtakashi_dist/items/eecb705ea48260db0b62 Create a Mel filter-bank. def mel(*, sr, n_fft, n_mels=128, fmin=0.0, fmax=None, htk=False 阅读全文
摘要:
To be specific, given an audio clip, the two-dimensional time-frequency representation (e.g. Log-Mel) is first extracted. Convolutional layers are the 阅读全文
摘要:
https://inc.ucsd.edu/mplab/75/media//gabor.pdf 阅读全文
摘要:
The information of interest is often a combination of phenomena that are transient (e.g., spike and action potentials) and diffuse (e.g., small oscill 阅读全文
摘要:
colab版本 from keras.layers.normalization.batch_normalization_v1 import BatchNormalization 本地版 from keras.layers.normalization~~.batch_normalization_v1~ 阅读全文
摘要:
26 Historical Perspective of the Field of ASR/NLU| 27 HMMs and Related Speech Recognition Technologies| 28 Speech Recognition with Weighted Finite-State Transducers 阅读全文
摘要:
引入 原理 正向扩散 反向过程 优化(推导略) 条件 音频 NUWAVE NU-Wave: A Diffusion Probabilistic Model for Neural Audio Upsampling WSRGlow WSRGlow: A Glow-based Waveform Gener 阅读全文
摘要:
DOI:10.21437/Interspeech.2012-493 阅读全文
摘要:
22 Linguistic Processing for Speech Synthesis| 23 Prosodic Processing| 24 Voice Transformation| 25 Expressive/Affective Speech Synthesis 阅读全文
摘要:
DCASE2022 Challenge Task 1, Low-Complexity Acoustic Scene Classification Task 2, Unsupervised Anomalous Sound Detection for Machine Condition Monitori 阅读全文
摘要:
19 Basic Principles of Speech Synthesis| 20 Rule-Based Speech Synthesis| 21 Corpus-Based Speech Synthesis 阅读全文
摘要:
NMF is an unsupervised machine learning technique created by Lee & Seung in 1999. 阅读全文
摘要:
DOI: 10.1109/ICASSP.2016.7471669 阅读全文