声景生态(Soundscape Ecology)分析

image
自然环境的长时间记录在被动监测动物多样性方面有许多优点。现在,技术的进步使收集的音频远远超过可以收听的音频,因此需要开发可扩展的方法来区分信号和噪声。使用自动物种识别器的计算方法在精度上有所提高,但需要相当多的编码专业知识。环境记录的内容是不受约束的,机器学习所需的标记数据集的创建是一项耗时、昂贵的事业。在这里,我们描述了一种使用长时间假色(LDFC)光谱图分析环境记录的可视化方法,由光谱指数的组合制备。这项技术最初是为了将24小时的“声景”可视化而开发的。音景是一个生态声学概念,它包含了生态系统中声音的整体。我们描述了三个案例研究,以证明LDFC频谱图不仅可以用于研究声景观,而且还可以监测其中的单个物种。在第一种情况下,LDFC谱图帮助解决了一个“大海捞针”的问题——确定秘密的Lewin's Rail(塔斯马尼亚),Lewinia pectoralis brachipus的发声。我们通过使用机器学习方法扫描多天的LDFC谱图来扩展该技术。在第二个案例研究中,我们证明了青蛙合唱很容易在LDFC频谱图中被识别,因为它们的时间尺度很长。虽然个别青蛙的叫声在不和谐的声音中消失了,但光谱指数可以区分不同的合唱特征。第三,我们证明了该方法可以扩展到蝙蝠回声定位呼叫的检测。通过将复杂的声学数据转换为易于解释的图像,我们的实用方法弥合了生物声学和生态声学之间的差距,涵盖了三个数量级的时间尺度。使用一种方法,就可以监测整个音景和这些音景中的单个物种。

生态学家越来越多地使用长时间的环境声学记录来监测陆地生态系统的物种多样性(Gage和Farina, 2017)。有声录音有几个优点。首先,传感器可以连续记录数周或数月(取决于它们的电源),而观察者在现场访问和收集数据的能力是有限的。其次,多个传感器可以分布在一个景观同时记录。第三,多人可以多次听原声录音,方便口译。第四,录音可以无限期保存,直到更强大的分析技术出现。第五,声波记录仪产生的干扰最小,不太可能改变当地动物的发声行为。

容易获得长时间录音的缺点是大部分录音都不会被人听。需要计算方法来揭示感兴趣的特征,通常是通过编写自动物种识别器。然而,环境记录的内容是不受约束的,包含了许多不感兴趣的内容,即使是写得很好的识别者也会感到困惑。许多关于计算鸟类叫声识别的论文和国际比赛依赖于数据集,这些数据集已经被广泛整理和清除了不需要的声音(Priyadarshani等人,2016,2018),或者只包括近距离记录的叫声。(但是请注意,LifeCLEF鸟类识别挑战现在包括几个小时的音景记录[Goeau et al., 2017])。因此,编写识别器是一项耗时且昂贵的工作。而识别器在没有感兴趣的物种的情况下不会透露任何关于录音内容的信息。

另一种方法是将长时间录音视为音景(Pijanowski et al., 2011)。这里的重点不是单个物种,而是有助于录音的广泛声源类别,典型的生物声(哺乳动物、鸟类、青蛙、昆虫等发出的声音)、地声(风、雨、海浪发出的声音)和人声(人类发出的声音,无论是语音、音乐还是大量的机器声音)。为了量化这种方法,声学指数,如声学复杂性指数(Pieretti et al., 2010)和声学熵指数(Sueur et al., 2014),被用来估计声景观中生物声学的复杂性,这反过来又被用作物种多样性和生态系统健康的间接衡量标准。

现在有相当多关于声学指数的文献(Gage和Farina, 2017,第16章;Sueur et al., 2014),但单一指标并不容易揭示长录音中的详细声学结构。为了解决这一问题,长时间假色(LDFC)谱图被开发出来。它们是通过计算粗分辨率下的三个光谱指数(通常每个光谱60秒),并将这三个指数分配到彩色光谱图像的红色、绿色和蓝色通道来构建的(Towsey等人,2014年)。本文中用于构建LDFC光谱图的光谱指标将在下一节中描述。一个被纳入LDFC谱图的谱声指数,可以更好地理解为一个数学“滤波器”,它描述了一分钟录音段中每个频率箱中声能量分布的一些特征。该方法的实用性取决于将三个索引组合在一起,这些索引充当不同的“过滤器”,为音景提供不同的“视图”(Towsey等人,2016)。

声学指数以前曾用于监测声景(Gage等人,2017;Phillips等人,2018b),此外,还过滤了在搜索单个物种时的长时间记录。例如,参见Gage和Farina(2017),他们使用光谱能量来确定春季窥视蛙首次出现的日期(可能有助于探测长期气候变化)。在这里,我们扩展了它们的应用,包括多种声学指标和LDFC谱图。LDFC谱图最初引入时的目的是为音景生态学家提供一种工具来导航很长的录音内容(Towsey等人,2015)。然而,即使在每个光谱60秒的分辨率下,假色谱图也可以获得大量的细节,而且LDFC谱图也可以帮助生态学家进行只涉及一个或几个物种的生物声学研究。这篇文章的目的是描述三个案例研究,突出LDFC谱图在研究来自三个不同声音分类群(鸟类、青蛙和蝙蝠)的单个物种中的效用。


image
生态声学监测已被证明是一种可行的方法来获取与动物群落有关的生态数据。虽然专家可以手动注释音频样本,但自动模式识别方法可以极大地促进大型数据集的分析。无监督学习方法不需要标记数据,特别适合于分析缺乏记录的栖息地,如热带环境。在此,我们提出了一种新的方法,称为多分辨率声学分集分析(MAAD),以自动检测音频数据中的相关结构。MAAD的设计目的是根据声波群落的时频属性将其分解为几个基本成分(声音类型)。首先,我们使用短时傅里叶变换来检测时频域的感兴趣区域(ROIs)。然后,我们通过(1)估计中位数频率和(2)在多个尺度和角度运行二维小波分析来表征这些roi。最后,我们使用基于模型的子空间聚类技术对roi进行分组,以便roi自动注释并聚为声音类型。为了测试自动方法的性能,我们将MAAD应用于法属圭亚那的两个不同的热带环境,一个低地高热带雨林和一个岩石热带草原,并使用调整后的兰德指数比较手动和自动注释。手动分区和自动分区之间的相似性很高且一致,这表明所找到的聚类是可理解的,可以用于进一步分析。此外,通过聚类过程估计的特征权重揭示了有关声学群落结构的重要信息。特别是,中位数频率对集群建模和分类性能的影响最强,这表明它在社区组织中发挥了作用。在MAAD中发现的簇数可以被视为对给定环境中声音类型丰富度的估计。MAAD是一种全面而有前途的被动录音自动分析方法。结合MAAD和人工分析将最大限度地利用人类推理和计算机算法的优势。因此,可以准确、快速和大规模地估计声学群落的组成。

最近,基于无监督学习的方法已经适用于在自然环境中实现的音频记录。无监督学习在不使用标签的情况下搜索数据集中的结构或模式。这种方法已被广泛用于在标记数据难以获取或过于昂贵的领域进行推断,如天文学(Way, 2012)、遗传学和基因组学(Libbrecht and Noble, 2015)。在一项创新工作中,Eldridge等人(2016)采用稀疏编码和源分离算法从环境记录中提取移不变光谱时间“原子”。然而,作者并没有在光谱“原子”和生态或生物过程之间建立明确的联系。无监督学习也被用作分类任务的预处理步骤,显著提高了物种识别的分类性能(Stowell and Plumbley, 2014)。在他们的方法中,Stowell和Plumbley(2014)首先用球形k-means将声音分解为“原子”,然后使用“原子”作为监督学习框架的特征。因此,无监督学习提供了表征声音的新方法,并可能为不同和受威胁的生态系统的声学群落提供见解热带地区(Pekin等人,2012年;罗德里格斯等人,2014 年)。

目前的工作源于这样一个问题:如何在被动声学记录中最好地测量、量化和表征环境声音(来自生物和非生物来源),以获得有价值的生态指标?我们提出了一种新的数据驱动方法,称为声学分集的多分辨率分析(MAAD),以自动发现被动声学记录中合理和可解释的模式。为了建立一个适用于多种条件和环境的通用方法,我们采用了来自无监督学习领域的方法。我们通过检测声音记录中感兴趣的区域,并根据它们的时频属性值将它们分组为声音类型来估计声音多样性。为了测试该方法的灵活性和鲁棒性,我们将MAAD应用于法属圭亚那的两个不同的夜间热带环境,一个低地高雨林(HF)和一个岩石稀树草原(RS)。与HF相比,RS居住着一个独特且可能较少多样化的动物群落(Bongers et al., 2001),因此期望在这两个热带环境中找到对比鲜明的声学群落。我们将人工和自动标注进行了比较:(1)评估模型选择过程;(2)评估聚类过程中不同特征的相关性;(3)量化手动和MAAD声音类型之间的总体相似性。最后,我们提出了切实可行的建议,并讨论了如何将MAAD转移到其他环境中,以跟踪动物群落的生物多样性状态和动态研究。


image
对于希望监测陆地生态系统的生态学家来说,解释自然环境的声学记录是一项越来越重要的技术。技术的进步使得积累的录音数量远远超过可以收听或解释的数量,因此需要自动辅助来识别音景中的元素。在这篇论文中,我们研究了估计鸟类物种丰富度的问题,从采样很长的声音录音。我们使用在自然条件下记录的数据,以及所有伴随的未定义和不受约束的声音内容(如风、雨、交通等)的问题,这些问题可能会掩盖感兴趣的内容(在我们的例子中,鸟叫声)。我们描述了在24小时录音期间以一分钟分辨率计算的14个声学指数。声学指数是一种统计数据,它概括了录音中声能和信息的结构和分布的某些方面。我们计算的一些指标是标准的(例如信噪比),一些已被报道用于检测生物声学活动(例如时间和光谱熵),还有一些是针对鸟类源的(哨声的光谱持久性)。我们将24小时录音中的一分钟片段按“声学丰富度”评分降序排列,该评分由单个指标或两个或多个指标的加权组合得出。我们描述了指数的组合,导致更有效地估计物种丰富度,而不是从相同的录音中随机采样,其中效率被定义为在给定的听力努力下识别的总物种。使用随机抽样,与传统实地调查相比,我们识别的物种增加了53%,使用指数组合指导抽样,增加了87%。我们还演示了如何使用相同指标的组合来检测长持续时间的声学事件(如暴雨和知了合唱),并构建长持续时间(24小时)的频谱图。

posted @ 2023-02-07 17:30  prettysky  阅读(416)  评论(0编辑  收藏  举报