使用相似矩阵对伴奏和人声进行划分 MUSIC/VOICE SEPARATION USING THE SIMILARITY MATRIX

-----原文:MUSIC/VOICE SEPARATION USING THE SIMILARITY MATRIX by Zafar RAFII

In this work, we generalize the repetition-based source 
separation approach to handle cases where repetitions also
happen intermittently or without a fixed period. Instead of
looking for periodicities, the proposed method identifies
repeating elements by looking for similarities, by means
of a similarity matrix. Once identified, median filtering
is then performed on the repeating elements to calculate a
repeating spectrogram model for the background.
A time frequency mask can finally be derived to
extract the repeating patterns (see Section 3).
This allows the processing of music pieces with fast-varying repeating
structures and isolated repeating elements, without the need to identify
periods of the repeating structure beforehand.

 

foreground:人声

background:伴奏

方法1:


Recently, a relatively simple approach has also been
proposed for music/voice separation. The method is based
on a median filtering of the mixture spectrogram at different frequency resolutions,
in such a way that the harmonic and percussive elements of the accompaniment can be smoothed out,
leaving out the vocals .
在不同频率分辨率下对混合频谱图进行中值滤波,以使伴奏的谐波和打击元素平滑,从而消除人声。


方法2:

REpeating Pattern Extraction Technique (REPET)
Another recent and promising approach is to apply
analysis of the repeating structure in the audio
to extract the repeating musical background from the non-repeating vocal foreground.

分析重复结构,从非重复的声音中提取重复的背景用于过滤人声

本文采用第二种方法


相似矩阵:


二维表示,每个点(a,b)测量a和b之间 的相似性。

给定一个单通道信号x,计算x的短时傅里叶变换X
使用N个样本长度的半重叠汉明窗(half overlapping hamming windows)

通过取X元素的绝对值,我们可以推导出幅度谱图V

丢弃对称部分,保持直流分量(DC component)

通过求V和V的转置矩阵的乘积得到相似矩阵S

通过欧几里得范数对V的列进行归一化

相似矩阵S中的每个点(ja,jb)代表幅度谱图中时间帧Vja和jb的余弦相似度

 计算公式如下

 

 

 

重复元素:

 

一旦计算出相似矩阵S,我们就用他来识别V中的重复元素。

 对于V中的所有时间帧j 我们寻找跟跟定的j最相似的另一个时间帧j ,然后将他们保存在Jj的向量中,

一个较合理的假设是假定不重复的人声与重复的伴奏有很大的差异

对音乐中的人声来说,相似矩阵提供的重复元素应该就是底层具有重复结构的伴奏。

相似矩阵的使用是我们识别非周期性发生的重复元素。

我们在算法中增加了下面所示的约束参数,为了限制帧j的重复帧的数量。

我们定义k,代表允许重复帧数量的最大值。定义t,代表重复帧和给定帧(t[0,1])之间相似度的最小阈值,

连续帧可以表示出很高的相似度。帧的时长和音乐元素的时长无关(所以不用展示新的相同结构元素的入口?????)。

 

我们又定义d,表示两个连续重复帧之间具有足够的相似元素认定相似之间的最小(时间)距离。

 

重复模型

 

一旦确定了V中所有帧j的重复元素,

我们就用他们构造一个重复的背景音乐W,

对V中的所有j来说,我们通过重复帧中对应的中位值构造W中的对应帧j

 

对每个频段来说,W重复频谱计算如下所示

 

 

Jj = [j1...jk]  代表重复帧的下标

k是重复帧的中值

 

 基本原理如下:

假设不重复的人声具有稀疏时频,底层背景音乐具有重复的时频。

时频桶

重复时频W

 

 上图展示了W的推导过程,

(1)由混合频谱V通过余弦相似度计算出相似矩阵S,

(2)对V中的所有帧j来说,通过S识别出k个属于j的最大相似帧

(3)对每个重复的频道,通过k个相似帧推断出重复频谱W模型中的j帧

重复帧质检的微小差距将构成重复模式,并且被中位数捕捉。

 

由较大差距的重复帧组成的时频桶将构成不重复模式,并且被中位数剔除。

 

时频掩模

计算出W之后,我们通过它来推导一个时序掩模M。

首先我们需要创建一个针对背景音乐的精确的重复频谱模型W0。

通过对每个时频桶提取W和V之间的最小值,

 

我们假设非负混合频谱V是非负重复频谱W和非负不重复频谱的和V-W。

W中的时频桶最多可以有V中对应时频桶的一样的值。

即W<=V

对弈对每个时频桶用最小值函数

我们通过对W的转置矩阵的归一化对每个时频桶得出时频掩模M,

原理是时频桶可能会构成V中的重复模式将会接近1 并且对重复的背景音乐进行加权。

 

 因此,在时频掩模中时频桶不太可能构成接近0值的V中的重复模式。

时频掩模计算如下图所示:

 

 时频掩模M对称化应用于x的混合信号X的短时傅里叶变换(STFT)。

通过得出的STFT转换为时域得到最终的音乐信号。

通过从混合信号中减去音乐信号得到最终的人声信号。

评估

竞争方法和数据集:

基于相似矩阵给提出的方法贴上标签。

我们在14首全音轨流行音乐上比较了两种竞争力的分离方法。

 

第一种方法是原始REPET算法扩展,用于处理底层重复结构变化。

这种方法成为REPET+。

方法首先跟踪底层的节奏频谱图的重复结构,然后使用中值方法对重复背景音乐进行建模,

最终实现从混合频谱中利用时频掩模中提取出重复模式。

通过软视频掩模和高通滤波和100Hz的人声限制对REPET+的分离结果进行处理。

 

第二种竞争方法:

多通道中值滤波分离(MMFS),另一个最近提出的人声分离方法,是基于不同频率分辨率下对混合频谱图进行中值滤波,平滑伴奏和打击元素,忽略人声。

为了比较,使用高通滤波和100Hz的声音限制,对MMFS 的四个建议方法的分离结果进行对比。

将100Hz以上的人声去除(人声很少在100Hz以下出现)

 

评估结果方法:

BSS Eval toolbox(评估源数据和相应估计之间的分离)

Source-to-Distortion Ratio (SDR),
Sources-to Interferences Ratio (SIR),
and Sources-to-Artifacts Ratio(SAR)

 

posted @ 2022-04-22 18:29  Aemnprsu_wx  阅读(152)  评论(0编辑  收藏  举报