2022,Feature Evaluation for Underwater Acoustic Object Counting and F0 Estimation
Abstract
在执行水声目标检测任务时,需要对目标数N进行计数,当N大于1时进行声源分离,并从分离出的噪声中提取每个目标的运动参数(如轴频或FO)。尽管深度学习方法在图像解译中被广泛采用,但它在很大程度上依赖于输入数据或特征的形式或质量,特别是在强环境噪声和多路径效应阻碍精确目标检测的水声应用中。因此,对典型特征进行全面评估,可以为不同任务中的特征选择提供参考。在本文中,我们选择在时间序列分析中得到广泛验证的CRNN作为评估不同时频特征的通用分类器,以及用于目标计数和FO估计的增强版本。通过模拟和湖泊试验,分别分析了STFT、GST、LOFAR、DEMON、MFCCs作为输入在两种任务中的性能。基于湖泊试验数据集的实验结果表明LOFAR和DEMON主导目标计数性能,精度分别为96%和97%,而DEMON在F0估计任务中的表现(94%)优于LOFAR(83%),部分原因是我们的湖泊试验数据集中存在显著的空化。STFT和GST在真实环境中鲁棒性较差,而MFCCs在这两种情况下都无法应对。
INTRODUCTION
在航行过程中,船只和AUV(自主水下航行器)等交通工具会向水中辐射巨大的噪音。可由附近的水听器采集,用于监测声目标[1]、[2]的状态参数,如图1所示。当多个目标同时存在时,混合噪声[3]需要进行源分离。然后,从分离的噪声中提取出目标的轴频和叶频、叶片数量和尺寸、吨位、车速等运动或物理参数。在[4]和[5]中,我们分别报道了基于STFT和DEMON特征的源分离和Fo估计的进展。然而,特征选择策略,这在很大程度上决定了后期分类器的性能,包括广泛应用的深度学习网络,在水下噪声分析任务中还没有得到认真的研究。
下面几段将简要回顾目标计数和Fo估计,然而,源分离超出了本文的范围,将在未来的报告中详细说明。对于目标计数,传统方法采用基于信息论的准则,如AIC [6], MDL [7], HQ准则[8]来估计目标数。但是,当快照数量较少或噪声是非高斯的[9]时,它们很容易失败。基于doa的方法,在远场假设下,通过聚类[10]联合估计源数和到达方向。最近,深度网络也被引入到声源计数中。阮等。al.[11]使用从多重信号分类(MUSIC)中获得的空间伪频谱来训练CNN并同时估计DOA和源数。值得注意的是,近期基于单通道语音信号[12]的信源计数研究也采用深度网络从各种时频特征中预测信源数,如STFT、LOGSTFT、MFCCs等。
在参数估计领域,研究主要集中在目标的运动和物理参数,如轴频、叶片数、吨位等。作为一个典型的代表,本文考虑了轴频估计。在实际工程中,妖谱分析法被广泛应用于调制谱的提取,其中由Fo与其谐波[5]的积分相乘关系可以估计出轴频和叶片数。传统的Fo估计方法有最大公约数(GCD)法[13]、序列匹配法[14]等,但这些方法对环境噪声敏感,且严重依赖先验信息。在我们早期的工作[5]中,提出了一种基于DEMON和CNN的Fo估计方法,该方法在高速条件下可行,但在目标移动缓慢时容易失效。
可以看出,在深度学习框架下,在各种场景下人工选择不同的频谱特征,这必然依赖于专家的经验。因此,有必要探索典型时频特征在不同任务中的表现,为相关研究提供基准。考虑到在阵列设置中,计数任务中水听器的数量需要等于或大于目标数量,由于负载能力可能无法满足,因此我们选择单台水听器来完成这些任务。
在本文中,我们在深度学习的框架下评估了几种典型时频特征在水下噪声分析任务中的表现,包括STFT、GST (STFT的改进版本)、LOFAR、DEMON和MFCCs。我们总结了在时间序列信号分析中广泛应用的同一骨干网CRNN在目标计数和Fo估计中各特征的性能。
METHODOLOGY
本文提出的算法如图2所示。首先,采集水声目标的辐射噪声;然后,提取STFT、GST、LOFAR、DEMON和MFCCs等时频特征,进行目标计数和Fo估计。采用梳状滤波器(comb)来缓解多途效应和强环境噪声引起的失真。最后,考虑到我们的主要目的是评估输入特征的性能,我们选择了广泛应用的CRNN网络作为基线,本文没有修改网络结构。后面的三个步骤将在以下段落中描述,数据集将在第三节和第四节中详细介绍。
A. Time-frequency features
由于轴转速的扰动和水-螺旋桨耦合的随机性,辐射噪声通常是非平稳信号。因此,为了监测瞬时运动状态,采用时频分析方法连续跟踪相邻帧之间的显著频仓。下面将介绍典型的频率特征。
a) STFT:将信号分成若干个重叠或重叠的加窗段,将傅里叶频谱划成二维矩阵[15],得到STFT。注意,窗口长度在STFT中是固定的。
b) GST:为了缓解STFT中固定窗长所带来的困境,GST是STFT的一种变窗长变体,具有自适应时频分辨率[16]。
c) LOFAR:由于连续体部分在低频范围内诱导的趋势项,在STFT中舰船辐射噪声的线谱不突出。采用TPSW滤波器可以对频谱进行去趋势处理,突出线谱,从而获得更好的频率分辨率[17]。
d) DEMON:螺旋桨旋转参数在高速状态下用连续谱编码。因此,通过高频解调(即DEMON分析),可以保留轴频及其谐波进行参数估计[18]。
e) MFCCs:采用平方能量,经一组梅尔滤波器滤波,STFT转换为梅尔谱。在此基础上再进行离散余弦变换,得到扬声器中广泛采用的梅尔倒谱系数识别[19]。
在提取上述特征时,窗长5000,相邻两帧的跳长为125。STFT、GST、LOFAR和DEMON只保留了f [0,1024]Hz以上的频谱,因为高频部分包含的信息很少,因此得到了尺寸为40 × 512的特征矩阵。对于MFCC,采用全谱法计算倒谱系数,加上一阶和二阶动态参数,最终得到形状为40 × 39的特征矩阵。为了便于理解,图3中可视化了一些例子。详情请参阅标题,相关船舶信息已明确列于第III部分的表I。