博客作者：凌逆战

博客地址：https://www.cnblogs.com/LXP-Never/p/12071748.html

摘要

本文分析了非平稳噪声环境下带有后置滤波的双通道广义旁瓣相消器。后置滤波包括：检测 波束形成器的输出和参考信号处的瞬变，比较他们的瞬变功率，估计信号存在概率，估计噪声频谱以及频谱增强，以使他们对数谱的均方误差最小化。基于局部非平稳性的测量方法来检测瞬态信号，并根据瞬态波束参考比将其分为期望和干扰两类。我们引入了transient discrimination quality（瞬态鉴别质量）度量，该度量量化了波束形成器识别噪声瞬态信号和信号瞬态信号的能力。在各种噪声场中对这一测量方法的评价表明，期望和干扰瞬态通常可以在大范围的频率范围内加以区分。为了进一步提高信号宽带情况下的低频和高频瞬态降噪效果，我们对每一帧信号存在的全局可能性进行了估计。全局似然与频率中的瞬态波束参考比相关，瞬态鉴别质量高。实验结果证明了该方法在各种汽车环境下的有效性。

关键词：声学噪声测量，自适应信号处理，阵列信号处理，信号检测，频谱分析，语音增强

1 引言

　　在混响和噪声环境中，多通道系统用于对来自非期望方向的干扰信号进行空间滤波[1]。在非相干或扩散噪声场的情况下，仅仅波束成形不能提供足够的噪声抑制，通常需要进行后置滤波^[2]-[3]。Zelinski[4]，[5]提出了基于Wiener滤波和传感器信号自谱和互谱密度的后置滤波方法。由于噪声功率密度被高估，Simmer和wasiljeff[6]提出了一种改进方案，它采用波束形成器输出的功率谱密度，而不是单个传感器信号功率谱密度的平均值。基本假设是不同传感器的噪声分量相互不相关的。

扩散噪声场：非相干噪声场在空间上是白色的，即在任何不同的空间位置处测得的噪声信号都是不相关的。在扩散噪声场中，等功率的噪声同时在所有方向上传播，并且在任意两个点处测量的噪声信号之间的相干性是传感器之间距离的函数。

　　考虑到相干噪声成分的存在，Fischer等人 [7] [9]提出了一种基于广义旁瓣消除器（GSC）的降噪系统。 GSC抑制了相干噪声分量，而在目标方向上设计了一个维纳滤波器抑制非相干噪声分量。Bitzer等人的研究表明，在扩散噪声场中，无论是GSC还是自适应后置滤波在低频下均不能很好地工作^[10]-[11]。因此，在具有标准维纳后置滤波的GSC的输出中，他们使用了第二个后置滤波器来减少与空间相关的噪声分量^[12]-[13]。 Meyer和Simmer [14]将高频带的维纳滤波与低频带的频谱减法相结合。维纳滤波用于抑制空间低相干噪声分量，而频谱减法用于降低空间高相干噪声。

相干噪声：相干噪声场是方向性的。在任意两个点处测得的噪声信号高度相关

　　Fischer和Kammeyer提出了一种几乎与噪声场相关特性无关的降噪系统^[15]。维纳滤波应用于宽带波束形成器的输出，宽带波束形成器由几个谐波嵌套的子阵列组成。 Marro等人进一步分析了这种结构。McCowan等人 ^[2]使用了近场超定向波束成形技术，并研究了维纳后置滤波器对语音识别性能的影响^[16]。他们表明，在近场源和扩散噪声条件下，与传统的自适应波束形成器相比，可以提高识别性能。文献[3]提出了对Wiener多通道后置滤波的理论分析。 Gannot等人 ^[17]研究了将源信号与传感器联系起来的一般传递函数的问题。他们将GSC解决方案应用于一般的传递函数情况，并提出了一种增强被平稳噪声破坏的任意非平稳信号的算法。为了提高在扩散噪声场和低频段的降噪性能，他们对波束形成器的输出进行了单输入单输出(SISO)后置滤波。然而，SISO后置滤波方法缺乏衰减高度非平稳噪声成分的能力，因为这些成分与期望的信号成分没有区别。

　　最近，我们引入了一种多通道后置滤波方法，用于最小化非平稳噪声环境中的对数谱振幅失真^[18]-[19]。用波束形成器输出的暂态功率与参考噪声信号的暂态功率的比值用于指示这种瞬态是期望的还是干扰的。我们证明，与SISO后置滤波相比，可以显著降低的非平稳噪声，而不会进一步失真所需的信号分量。

　　在本文中，我们分析了非平稳噪声环境中的后置滤波双通道GSC。我们使用瞬态鉴别质量度量来量化波束形成器识别干扰瞬态和源瞬态的能力。这项测量在各种噪声场中进行了评估，结果表明期望和干扰瞬态通常可以在大范围的频率范围内加以区分。在瞬态或伪平稳噪声场相干的情况下，干扰源的方向必须与到期望源的方向不同，至少是到达角的不确定度的两倍。在低频情况下，波束形成器的指向性和空间滤波能力会消失。对于高频，空间混叠将来自旁瓣到主瓣的干扰折叠起来。在这种情况下，双通道后置滤波可简化为SISO单通道后置滤波，因为波束形成器输出与参考信号之间的瞬态功率比不再是瞬态源的独特特征。

　　为了进一步提高在所需信号为宽带(如语音信号)情况下的低频和高频下的瞬态噪声降低效果，我们引入了信号存在的全局似然。全局似然性与在一定频率范围和给定时间帧内可能包含所需分量的频率bin的数量有关。当全局似然低于某个阈值时，我们得出结论，期望的分量在该帧中缺失，并将所有频率bins的先验信号缺失概率设置为1。这以一种对人类听众更愉快的方式均匀地抑制噪声，并且更好地消除窄带干扰瞬变，特别是那些从观察方向到达的瞬变。在不同车辆环境下的实验结果表明，双通道后置滤波优于单输入单输出后置滤波。当噪声频谱发生波动时，使用所提出的后置滤波方法在性能上的改善是显著的。

　　论文组织如下：

第二节：我们回顾了双通道广义旁瓣对消器，并在功率谱域中推导了波束形成器输出、参考噪声信号、期望源信号和输入瞬态干扰之间的关系。

第三节：讨论了波束形成器输出噪声时变谱的估计问题，并给出了后置滤波方法。根据波束形成器输出与参考信号的瞬态功率比，在波束形成器输出处检测到所需的源分量，并将其与瞬态噪声分量区分开来。

第四节：我们评估了在各种噪声领域中，波束形成器识别干扰瞬态信号的能力。

第五节：我们将所提出的方法与SISO后置滤波进行了比较，并给出了在各种汽车环境下的实验结果。

2 双通道广义旁瓣相消器

　　设$x(t)$表示期望的源信号，$d_s(t)$和$d_t(t)$表示两个传感器输出处的不相关干扰信号向量。向量$d_s(t)$表示伪平稳干扰，$d_t(t)$表示不需要的瞬态分量。假设阵列预转向源信号的方向，观测信号被定义为

$$公式1：z_i(t)=x(t)+d_{is}(t)+d_{it}(t),\quad i=1,2$$

其中$d_{is}(t)$和$d_{it}(t)$是对应于第$i$个传感器的干扰信号。利用窗函数将观测信号在时间上划分为重叠帧，并用短时傅立叶变换（STFT）进行分析。在时频域我们有

$$公式2：\mathbf{Z}(k, \ell)=\mathbf{A} X(k, \ell)+\mathbf{D}_{s}(k, \ell)+\mathbf{D}_{t}(k ; \ell)$$

其中$\mathbf{A} \triangleq\left[\begin{array}{ll}{1} & {1}\end{array}\right]^{T}$，$k$表示频率bin索引，$\ell$表示帧索引，以及

$$\begin{aligned} \mathbf{Z}(k, \ell) & \triangleq\left[Z_{1}(k, \ell) Z_{2}(k, \ell)\right]^{T} \\ \mathbf{D}_{s}(k, \ell) & \triangleq\left[D_{1 s}(k, \ell) D_{2 s}(k, \ell)\right]^{T} \\ \mathbf{D}_{t}(k, \ell) & \triangleq\left[D_{1 t}(k, \ell) D_{2 t}(k, \ell)\right]^{T} \end{aligned}$$

　　图1为线性约束自适应波束形成器的双通道广义旁瓣相消结构^[20]-[21]。波束形成器包括固定波束形成器（延迟&求和）、一种产生参考噪声信号$U(k,\ell)$的阻塞信道（延迟&相减）和一种自适应噪声消除器$H(k,\ell)$，用于消除通过固定波束形成器的旁瓣泄漏的固定噪声。我们假设噪声抵消器仅适用于平稳噪声，在瞬态干扰时不作修改。此外，我们假设某些期望的信号分量可能由于转向误差而通过阻塞信道。

图1 双通道广义旁瓣相消器

　　感兴趣信号到达角的不确定性用由下式表示

$$公式3：\Delta_{k}=\frac{\omega_{k} \ell}{c} \sin (\varphi)+\phi$$

其中，$w_k=\frac{2\pi f_s(k-1)}{N}$是第k个频率bin的中心（k=1），$N$是频谱分析窗口的长度，$f_s$是采样频率，$l$是传感器之间的距离，$c=340m/s$是声速，$\varphi $是源方向的失配，$\phi $是相位差的估计误差。我们设$\mathbf{W}(k)=1 / 2\left[e^{j \Delta_{k} / 2} \quad e^{-j \Delta_{k} / 2}\right]^{H}$是固定波束形成器的加权向量，并且$\mathbf{B}(k)=1 / 2\left[e^{j \Delta_{k} / 2} \quad e^{-j \Delta_{k} / 2}\right]^{H}$是分块向量。因此，波束形成器输出和参考噪声信号由下式表示

$$公式4：{Y(k, \ell)=\left[\mathbf{W}^{H}(k)-H^{*}(k, \ell) \mathbf{B}^{H}(k)\right] \mathbf{Z}(k, \ell)}$$

$$公式5：{U(k, \ell)=\mathbf{B}^{H}(k) \mathbf{Z}(k, \ell)}$$

通过使平稳噪声[22]的输出功率最小，得到了滤波器$H(k,\ell)$的最优解。设$\mathbf{\Phi}_{\mathbf{D}_{\mathbf{s}} \mathbf{D}_{\mathbf{s}}}(k, \ell)=E\left\{\mathbf{D}_{s}(k, \ell) \mathbf{D}_{\mathbf{s}}^{H}(k, \ell)\right\}$表示输入平稳噪声的功率谱密度(PSD)矩阵。然后，通过求解无约束优化问题，使波束形成器输出的稳态噪声功率最小

$$公式6：\min _{H(k, \ell)}\left\{[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H}\right. \Phi_{\mathbf{D}_{s} \mathbf{D}_{s}}(k, \ell) \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]\}$$

$$公式7：H(k, \ell)=\left[\mathbf{B}^{H}(k) \mathbf{\Phi}_{\mathbf{S}} \mathbf{D}_{s}(k, \ell) \mathbf{B}(k)\right]^{-1} \times \mathbf{B}^{H}(k) \mathbf{\Phi}_{\mathbf{D}_{s}} \mathbf{D}_{s}(k, \ell) \mathbf{W}(k)$$

如果我们假设静态和瞬态噪声场是均匀的，则输入噪声信号的PSD矩阵与相应的空间相干函数$\tau _s(k,\ell)$相关$\tau _t(k,\ell)$，并且，

$$公式8：{\mathbf{\Phi}_{\mathbf{D}_{s} \mathbf{D}_{s}}(k, \ell)=\lambda_{s}(k, \ell)\left[\begin{array}{cc}{1} & {\Gamma_{s}(k, \ell)} \\ {\Gamma_{s}^{*}(k, \ell)} & {1}\end{array}\right]}$$

$$公式8：{\mathbf{\Phi}_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)=\lambda_{t}(k, \ell)\left[\begin{array}{cc}{1} & {\Gamma_{t}(k, \ell)} \\ {\Gamma_{t}^{*}(k, \ell)} & {1}\end{array}\right]}$$

其中$\lambda_{s}(k, \ell)$和$\lambda_{t}(k, \ell)$表示单个传感器的输入噪声功率。在这种情况下，最佳噪声消除(7)减小为

$$公式10：H(k, \ell)=\frac{j \Im\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}$$

假设源信号、稳态噪声和瞬态噪声是不相关的。因此，输入PSD矩阵由

$$公式11：\mathbf{\Phi}_{\mathbf{Z Z}}(k, \ell)=\lambda_{x}(k, \ell) \mathbf{A} \mathbf{A}^{T}+\mathbf{\Phi}_{\mathbf{D}_{s} \mathbf{D}_{s}}(k, \ell)+\mathbf{\Phi}_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)$$

其中$\lambda_{x}(k, \ell) \triangleq E\left\{|X(k, \ell)|^{2}\right\}$为所需源信号的PSD。使用（4）和（5），可以通过以下方式获得波束形成器输出和参考信号的PSD：

$$公式12：\phi_{Y Y}(k, \ell)=[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \mathbf{\Phi}_{\mathbf{Z} \mathbf{Z}}(k, \ell) \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]$$

$$公式13：\phi_{U U}(k, \ell)=\mathbf{B}^{H}(k) \mathbf{\Phi}_{\mathbf{Z} \mathbf{Z}}(k, \ell) \mathbf{B}(k)$$

将(8)(11)代入(12)和(13)（请参阅附录I），我们得到了波束形成器输出、参考信号、期望源信号和输入干扰的PSDs之间的如下线性关系：

$$公式14：\phi_{Y Y}(k, \ell)=C_{11}(k, \ell) \lambda_{x}(k, \ell)+C_{12}(k, \ell) \lambda_{s}(k, \ell)+C_{13}(k, \ell) \lambda_{t}(k, \ell)$$

$$公式15：\phi_{U U}(k, \ell)=C_{21}(k) \lambda_{x}(k, \ell)+C_{22}(k, \ell) \lambda_{s}(k, \ell)+C_{23}(k, \ell) \lambda_{t}(k, \ell)$$

其中

$$公式16：C_{11}(k, \ell)=\left[\cos \left(\frac{\Delta_{k}}{2}\right)-\frac{\Im\left\{\underline{\theta}^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}\right.\left.\times \sin \left(\frac{\Delta_{k}}{2}\right)\right]^{2} $$

$$公式17：C_{12}(k, \ell)=\frac{1-\left|\Gamma_{s}(k, \ell)\right|^{2}}{1-\mathbb{R}\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}$$

$$公式18：C_{13}(k, \ell)=\frac{1}{2}\left[|1+H(k, \ell)|^{2}+\mathbb{R}\{e^{j\triangle _k}\tau _t(k,\ell)[1+H(k,\ell)]^2\}\right].$$

$$公式19：C_{21}(k)=\sin ^{2}\left(\frac{\Delta_{k}}{2}\right) $$

$$公式20：C_{22}(k, \ell)=\frac{1}{2}\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}\right]$$

$$公式21：C_{23}(k, \ell)=\frac{1}{2}\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k, \ell)\right\}\right]$$

3 双通道后置滤波

　　在这一部分中，我们讨论了波束形成器输出噪声的时变频谱估计问题，并提出了后置滤波方法。图2描述了所提出的双信道后置滤波的框图。在波束形成器输出端检测到所需的源分量，并对先验信号缺失概率$\hat{q}(k,\ell)$进行估计。

基于高斯统计模型[24]和信号存在不确定性下的先验信噪比的的决策定向估计[25]，我们导出了信号存在概率的估计器$p(k,\ell)$。该估计器控制作为噪声引入PSD估计器的分量。最后，通过应用最佳修正对数谱幅度（OM-LSA）增益函数[25]，实现波束形成器输出的频谱增强。该增益使对数谱在信号存在不确定性时均方误差最小。

图2 后置滤波器框图

　　设$\mathcal{S}$为功率谱域中的平滑算子

$$公式22：\begin{aligned} \mathcal{S Y}(k, \ell)=\alpha_{s} \cdot \mathcal{S Y}(k, \ell-1)+&\left(1-\alpha_{s}\right) \times \sum_{i=-w}^{w} b_{i}|Y(k-i, \ell)|^{2} \end{aligned}$$

其中$$\alpha _s(0\leq \alpha _s\leq 1)$$是时间平滑的参数，$b$是确定频率平滑的规格化窗口函数($\sum_{i=-w}^wb_i=1$)。设$M$表示使用最小控制递归平均（MCRA）方法推导的背景伪平稳噪声PSD的估算器[25]，[26]。比率

$$公式23：\Lambda_{Y}(k, \ell) \triangleq \frac{\mathcal{S} Y(k, \ell)}{\mathcal{M} Y(k, \ell)}$$

$$公式24：\Lambda_{U}(k, \ell) \triangleq \frac{\mathcal{S U}(k, \ell)}{\mathcal{M U}(k, \ell)}$$

分别代表波束形成器输出和参考信号的局部非平稳性（LNS）[19]。在没有瞬变的情况下，LNS波动大约为1，并且在包含瞬信号的时频bins附近，预期LNS会远高于1。后置滤波包括在波束形成器输出和参考信号处检测瞬态信号，并比较它们的瞬态功率。如果我们在波束形成器的输出端检测到瞬态信号，但在参考信号上没有同时检测到瞬态信号，则可以确定这些瞬态信号可能是需要谨慎增强的源分量。另一方面，根据波束形成器输出和参考信号的功率比来处理它们的同时瞬变。在波束形成器输出处有较强的瞬态，表明存在所需的分量，因此应保留。而参考信号的强瞬态意味着干扰源，因此需要加以抑制。

A.波束形成器输出处瞬态信号的检测

　　设三个假设$H_{0s}$、$H_{0t}$和$H_1$分别表示在波束形成器输出处没有瞬变、存在干扰瞬变和存在期望瞬变。设$\Lambda _0$表示用于在波束形成器输出处检测瞬变的LNS的阈值（即，如果$\Lambda _Y(k,\ell)>\Lambda _O$则确定$H_1\cup H_{0t}$，否则确定$H_0$）。错误报警和检测概率定义为

$$公式25：{P_{f, Y}(k, \ell)=\mathcal{P}\left(\Lambda_{Y}(k, \ell)>\Lambda_{0} | H_{0 s}\right)}$$

$$公式26：{P_{d, Y}(k, \ell)=\mathcal{P}\left(\Lambda_{Y}(k, \ell)>\Lambda_{0} | H_{1} \cup H_{0 t}\right)}$$

然后，对于一个指定的$P_{f,Y}$，所需要的阈值和检测概率由^[19]给出

$$公式27：\Lambda_{0}=\frac{1}{\mu} F_{\chi^{2} ; \mu}^{-1}\left(1-P_{f, Y}\right)$$

$$
公式28：P_{d, Y}(k, \ell)=1-F_{\chi^{2} ; \mu}\left[\frac{1}{1+\xi_{Y}(k, \ell)} F_{\chi^{2} ; \mu}^{-1}\left(1-P_{f, Y}\right)\right]
$$

其中

$$
公式29：\xi_{Y}(k, \ell) \triangleq \frac{C_{11}(k, \ell) \lambda_{x}(k, \ell)+C_{13}(k, \ell) \lambda_{t}(k, \ell)}{C_{12}(k, \ell) \lambda_{s}(k, \ell)}
$$

表示波束形成器输出的瞬态和伪平稳功率之比，$F_{X^2;\mu }(x)$表示具有$\mu $自由度的标准卡方分布函数。图3显示了用于检测波束形成器输出处瞬变的接收机工作特性（ROC）曲线，其中误报概率为参数，并且u设置为22.1。该$\mu $值是采用形式（22）的平滑S（具有$\alpha _s=0.8$和标准化汉宁窗口$b=\frac{1}{12}[1 \quad 3\quad4\quad3\quad1]$）获得的。假设我们要求的虚警概率不大于$P_{f,Y}=0.05$，并且假设在波束形成器输出处的瞬态由$\xi _Y(k,\ell )\geq 2$定义，那么使用检测器$\Lambda _Y(k,\ell)>\Lambda _0=1.54$获得的检测概率为$P_{d,Y}(k,\ell)=0.97$。

自由度：等效自由度$\mu$由平滑参数$\alpha_s$、窗口函数$b$和STFT的谱分析参数（分析窗口的大小和形状以及帧更新步骤）确定。通过生成平稳的高斯白噪声$d(t)$，将其转换为时频域，并将样本均值和方差（在整个时频平面上）代入表达式$\hat{\mu}\approx 2E^2\{SD(k,\ell)\}/var \{SD(k,\ell)\}$来估计$\mu$的值

图3. 用于检测波束形成器输出或参考噪声信号（$\mu$= 22.1）瞬变的接收机工作特性曲线

等效自由度$\mu$由平滑参数$\alpha _s$、窗口函数$b$和STFT的谱分析参数（分析窗口的大小和形状以及帧更新步骤）确定。通过生成平稳的高斯白噪声$d(t)$，将其转换为时频域，并将样本均值和方差（在整个时频平面上）代入表达式$\hat{\mu }\approx 2E^2{}\{SD(k,\ell)\}/var\{SD(k,\ell)\}$

B.源和干扰瞬态的区别

　　瞬态信号分量在波束形成器输出处相对较强，而瞬态噪声分量在参考信号处相对较强。因此，我们期望波束形成器输出和参考信号之间的瞬态功率比对于期望的瞬态是大，对于噪声分量小的。让

$$
公式30：\Omega(k, \ell)=\frac{S Y(k, \ell)-\mathcal{M} Y(k, \ell)}{\mathcal{S U}(k, \ell)-\mathcal{M U}(k, \ell)}
$$

表示瞬态波束参考比（TBRR），即波束形成器输出的瞬态功率与参考信号的瞬态功率之比。那么，假设$H_1$或$H_{0t}$是真的

$$
公式31：\begin{array}{l}{\Omega(k, \ell)_{H_{1} \cup H_{\mathrm{ot}}}} \\ {\approx \frac{\phi_{Y Y}(k, \ell)-C_{12}(k, \ell) \lambda_{s}(k, \ell)}{\phi_{\mathrm{UU}}(k, \ell)-C_{22}(k, \ell) \lambda_{s}(k, \ell)}} \\ {=\frac{C_{11}(k, \ell) \lambda_{x}(k, \ell)+C_{13}(k, \ell) \lambda_{t}(k, \ell)}{C_{21}(k) \lambda_{x}(k, \ell)+C_{23}(k, \ell) \lambda_{t}(k, \ell)}}\end{array}
$$

假设$H_1$和$H_{0t}$是唯一的，即假设所期望的和干扰的瞬变在时间-频率域中不重叠，并且假设存在$\Omega _{high}(k)$和$\Omega _{low}(k)$这样的阈值

$$
公式32：\begin{aligned} \Omega(k, \ell)_{H_{0 t}} & \approx \frac{C_{13}(k, \ell)}{C_{23}(k, \ell)} \leq \Omega_{\mathrm{low}}(k) \leq \Omega_{\mathrm{high}}(k) \\ & \leq \frac{C_{11}(k, \ell)}{C_{21}(k)} \approx .\left.\Omega(k, \ell)\right|_{H_{1}} \end{aligned}
$$

对于所有$\ell$，我们可以确定如果$\Omega(k,\ell)\geq \Omega _{high}(k)$，信号可能出现在第k频率bin和第$\ell$帧。另一方面，如果$\Omega(k,\ell)\leq \Omega _{low}(k)$，则可以确定检测到的瞬态是干扰的。为了适应TBRR中的不确定性并提高源瞬态和干扰瞬态之间的区分，我们定义了一个表示信号存在可能性的函数$\psi (k,\ell)$。如果在波束形成器输出端($\Lambda _Y(k,\ell)\leq \Lambda _0$)处未检测到瞬变信号，则$\psi (k,\ell)$的值被设置为零。如果在波束形成器输出处而不是在参考信号$\Lambda_U(k,\ell)\leq \Lambda_0< \Lambda _Y(k,\ell)$处检测到瞬态，则$\psi (k,\ell)$被设置为1。如果在波束形成器输出处$\Lambda_U(k,\ell),\Lambda_Y(k,\ell)>\Lambda_0$处检测到瞬态信号，则根据（33）$\psi (k,\ell)$与$\Omega (k,\ell)$成比例，如页底部所示。对于给定的帧，信号存在的全局可能性与可能在一定频率范围内包含期望分量的频率bins的数量相关。因此，我们定义

$$公式33：
\psi(k, \ell)=\left\{\begin{array}{ll}{0,} & {\text { if } \Omega(k, \ell) \leq \Omega_{\mathrm{low}(k)}} \\ {\frac{\Omega\left(k, \ell-\Omega_{\mathrm{m}(k)}(k)\right.}{\ln \log _{\mathrm{h}}(k)-\Omega_{\mathrm{low}}(k)},} & {\text { if } \Omega_{\mathrm{low}}(k)<\Omega(k, \ell) \leq \Omega_{\mathrm{high}}(k)} \\ {1,}\end{array}\right.
$$

$$
公式34：\tilde{\psi}(\ell)=\frac{1}{k_{1}-k_{0}+1} \sum_{k=k_{0}}^{k_{1}} \psi(k, \ell)
$$

$$公式35：
q(k, \ell)=\left\{\begin{array}{ll}{1,} & {\text { if } \gamma_{s}(k, \ell) \leq 1 \text { or } \bar{\psi}(\ell) \leq \psi_{\mathfrak{v}}} \\ {\max \left\{\frac{2 \mathfrak{p}-\bar{\gamma}_{\mathfrak{g}}(k, \ell)}{\gamma_{0}-1}, 1-\psi(k, \ell)\right\},} & {\text { othervise }}\end{array}\right.
$$

其中$k_0$和$k_1$是表示频率范围的低频和高频bin指数。

图4 先验信号缺失概率估计的框图

　　图4总结了用于估计先验信号存在概率的框图。对于每个帧和频率bin，在时频平面中对波束形成器输出处的所需源分量进行检测。首先，我们计算所有频率bins的信号存在的局部似然。然后，生成一个全局似然$\hat{\psi }(\ell)$，并与某个阈值$\psi _0$进行比较。在全局似然太低的情况下，我们可以得出结论，认为该帧中不存在信号，并将所有频率bins的先验信号缺失概率$\hat{q}(k,\ell)$设置为1。这可防止窄带干扰瞬态，特别是来自观测方向的干扰信号，与期望的分量相混淆。这也有助于减少音乐噪音现象。在全局似然高于阈值$\psi _0$的情况下，先验信号缺失概率与第$\ell$帧和第$k$频率bin $(1-\psi(k,\ell))$处的信号缺失的似然有关，与波束形成器输出处相对于伪平稳噪声$\left.\gamma_{s}(k, \ell) \triangleq Y(k, \ell)\right|^{2} / \mathcal{M} Y(k, \ell)$的后验SNR有关。具体来说，我们根据（35）确定先验信号的不存在概率，如页面底部所示，其中$\gamma _0$表示对于某个显着性水平$\epsilon $满足$P(\gamma _s(k,\ell))\geq \gamma _0|H_{0s}<\epsilon $的常数。由于在没有瞬变的情况下$\gamma _s(k,\ell)$的分布是指数性的[ [26]，因此常数$\gamma _0$与$\gamma _0=-\log(\epsilon)$的显着性水平相关（通常我们使用$\epsilon =0.01$和$\gamma _0=4.6$）。

C.噪声估计和频谱增强

　　在假设的统计模型下，信号存在概率为

$$
公式36：p(k, \ell)=\left\{1+\frac{q(k, \ell)}{1-q(k, \ell)}(1+\xi(k, \ell)) \exp (-v(k, \ell))\right\}^{-1}
$$

其中$\xi(k, \ell) \triangleq E\left\{|X(k, \ell)|^{2}\right\} / \lambda_{d}(k, \ell)$是先验信噪比。$\lambda _d(k,\ell)$是波束形成器输出处的噪声PSD，$v(k, \ell) \triangleq \gamma(k, \ell) \xi(k, \ell) /(1+\xi(k, \ell))$和$\gamma(k, \ell) \triangleq | Y(k, \ell)^{2} / \lambda_{d}(k, \ell)$是后验信噪比。先验信噪比是由

$$
公式37：\begin{aligned} \hat{\xi}(k, \ell)=\alpha G_{H_{1}}^{2}(k, \ell-1) \gamma\left(k_{\gamma} \ell-1\right) +(1-\alpha) \max \{\gamma(k ; \ell)-1,0\} \end{aligned}
$$

其中$\alpha$是控制降噪和信号失真之间权衡的加权因子，并且

$$
公式38：G_{H_{1}}(k, \ell) \triangleq \frac{\xi(k, \ell)}{1+\xi(k, \ell)} \exp \left(\frac{1}{2} \int_{v(k, \ell)}^{\infty} \frac{e^{-t}}{t} d t\right)
$$

是当信号确实存在时对数谱幅度（LSA）估计器的谱增益函数[27]。噪声谱估计的MCRA方法[26]是使用由平滑周期图的最小值控制的平滑参数递归平均噪声测量的过去谱功率值。递归平均值由

$$
公式39：\hat{\lambda}_{d}(k, \ell+1)=\left.\tilde{\alpha}_{d}(k ; \ell) \hat{\lambda}_{d}(k, \ell)\left[1-\tilde{\alpha}_{d}(k, \ell)\right] Y(k, \ell)\right|^{2}
$$

其中，$\hat{\alpha_d}(k,\ell)$是时变频率相关的平滑参数，$\beta $是当信号不存在时补偿偏差的因子。平滑参数由信号存在概率$p(k,\ell)$和表示其最小值的常数$\alpha_d(0<\alpha_d<1)$确定

公式40：\tilde{\alpha}_{d}(k, \ell) \triangleq \alpha_{d}+\left(1-\alpha_{d}\right) p(k, \ell)
$$

当信号存在时，$\hat{\alpha_d}$是接近于1的，从而防止由于信号分量而增加噪声估计。当信号存在的概率减小时，平滑参数变小，有利于更快地更新噪声估计。

　　最后给出了干净信号STFT的估计

$$公式41：\hat{X}(k,\ell)=G(k,\ell)Y(k,\ell)$$

其中

$$公式42：G(k, \ell)=\left\{G_{H_{1}}(k, \ell)\right\}^{p(k, \ell)} \cdot G_{\mathrm{min}}^{1-p(k, \ell)}$$

图5 双通道后置滤波算法

表一参数值用于实现提出的双通道后置滤波，采样率为8khz

是OM-LSA增益函数，$G_{min}$表示信号缺失时增益的下限约束。图5给出了了双通道后置滤波算法的实现。表I给出了8 kHz采样率时各个参数的典型值。在（34）中用于计算信号存在的全局似然性的低频和高频bin指数$k_0＝9$和$k_1＝13$的值对应于[255，3500] Hz的频率范围。

4 理论分析

　　在这一节中，我们假设伪平稳和瞬态噪声的空间相干函数$\tau _s(k,\ell)$和$\tau _t(k,\ell)$与帧索引无关，我们定义了一个瞬态鉴别质量，它表明波束形成器能够识别不同于源瞬态的干扰瞬态，并在不同的噪声场中评估这种质量。

　　根据（32）中的不等式，只要给定$H_1$为真的($\Omega (k,\ell)|_{H_1}$)TBRR值的范围很容易与给定$H_{0t}$为真的($\Omega (k,\ell)|_{H_{0t}}$)范围区分开来，期望瞬态和干扰瞬态之间的区分质量就很高。否则，仅TBRR不足以确定在波束形成器输出和参考信号处同时检测到的瞬变源。在第k个频点处的波束形成器的瞬态鉴别质量由

$$
Q(k)=\frac{C_{11}(k) C_{23}(k)}{C_{21}(k) C_{13}(k)} \approx \frac{\Omega (k,\ell |_{H_1})}{\Omega(k,\ell)|_{H_{0t}}}
$$

其中，由于假设$\tau _s$和$\tau _t$与$\ell$无关，因此，如（16）（21）中所述的$\{C_{ij}(k)|i=1,2;j=1,2,3\}$与$\ell$无关。然后从（32）中得出，在瞬态噪声与所需信号分量之间进行可靠的区分需要$Q(k) >>1$。实践中，假设$H_1$为真，则（30）中的分母和分母的分布通过具有$\mu $自由度的卡方分布进行近似，而TBRR的分布通过F分布进行近似

$$
\begin{aligned} \mathcal{P}\left(\left.[\mathcal{S Y}(k, \ell)-\mathcal{M} Y(k, \ell)]\right|_{H_{1}} \leq \epsilon\right) &=F_{\chi^{2} ; \mu}\left(\frac{\mu \epsilon}{C_{11}(k) \lambda_{x}(k, \ell)}\right) \\ \mathcal{P}\left(\left.[\mathcal{S Y}(k, \ell)-\mathcal{M} Y(k, \ell)]\right|_{H_{1}} \leq \epsilon\right) &=F_{\chi^{2} ; \mu}\left(\frac{\mu \epsilon}{C_{21}(k) \lambda_{x}(k, \ell)}\right) \\ \mathcal{P}\left(\left.\Omega(k, \ell)\right|_{H_{1}} \leq \epsilon\right) &=F_{F ; \mu, \mu}\left(\epsilon \frac{C_{21}(k)}{C_{11}(k)}\right) \end{aligned}
$$

其中

$$
F_{F ; a, b}(x) \triangleq 1-I_{(1+a x / b)^{-1}}\left(\frac{a}{2}, \frac{b}{2}\right)
$$

是标准的F分布函数，$I_x(a,b)$是不完全 beta 函数[28]。我们要求TBRR的概率小于阈值$\Omega _{high}(k)$和$\Omega _{low}(k)$，假设$H_1$为真，最大为0.1和0.01

$$
\begin{array}{c}{\mathcal{P}\left(\left.\Omega(k, \ell)\right|_{H_{1}} \leq \Omega_{\text {high }}(k)\right) \leq 0.1} \\ {\mathcal{P}\left(\left.\Omega(k, \ell)\right|_{H_{1}} \leq \Omega_{\text {low }}(k)\right) \leq 0.01}\end{array}
$$

因此，阈值由

$$公式44：\Omega_{\text {high }}(k) =F_{F ; \mu, \mu}^{-1}(0.1) \frac{C_{11}(k)}{C_{21}(k)}=0.57 \frac{C_{11}(k)}{C_{21}(k)}$$

$$公式45：\Omega_{\text {low }}(k) =F_{F ; \mu, \mu}^{-1}(0.01) \frac{C_{11}(k)}{C_{21}(k)}=0.63 \Omega_{\text {high }}(k) $$

其中$\mu=22.1$。这与$\Omega _{low}(k)$大于$\frac{C_{13}(k)}{C_{23}(k)}$的要求一起，意味着在具有以下特征的频率bins中可以获得令人满意的辨别性能

$$公式46：
Q(k) \geq \frac{1}{F_{F_{i}, \mu, \mu}^{-1}(0.01)}=2.78
$$

$$公式47：Q(k) =\frac{\left\{\cot \left(\frac{\Delta_{i}}{2}\right)\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k)\right\}\right]-\Im\left\{e^{j \Delta_{k}} \Gamma_{s}(k)\right\}\right\}^{2}\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}\right]}{\left|1-e^{j \Delta_{k}} \Gamma_{s}(k)\right|^{2}+\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\left[1-e^{-j \Delta_{k}} \Gamma_{s}^{*}(k)\right]^{2}\right\}}$$

$$公式48：\Omega_{\text {high }}(k) =0.57\left[\cot \left(\frac{\Delta_{k}}{2}\right)-\frac{\Im\left\{e^{j \Delta_{k}} \Gamma_{s}(k)\right\}}{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k)\right\}}\right]^{2} $$

将（10）和（16）（21）代入（44）和（43），我们可以根据空间相干函数和到达角的不确定性（见本页底部的（47）和（48））来明确表示瞬时分辨质量和TBRR的上阈值。我们注意到$\Omega_{high}(k)$与瞬态噪声场无关，因为其值由与TBRR相关的置信水平确定，假设$H_1$为真，并且我们假设期望和干扰瞬态在时频域($H_1\cap H_{ot}=\text{\O}$)中不重叠。

　　为了真实地评估所提出的方法在各种声学环境中的辨别能力，我们将传感器之间的距离设为$\ell=10 cm$，源方向$\phi=5^o$的失配，以及相位$\phi=5^o$的差分的估计误差。图6-8显示非相干、漫射和相干噪声场的瞬态鉴别质量。TBRR的各自上限阈值在图9中进行了描述。解析表达式见附录II。

　　通常，在特定频带内可以实现所需瞬变和干扰瞬变之间的区别。在很宽的频率范围内满足了瞬态鉴别质量应足够大的要求（46）。对于低频，会丢失波束形成器的方向性及其空间滤波能力。对于高频，空间混叠会折叠从侧面到主瓣的干扰。在这些情况下，由于波束形成器输出和参考信号之间的瞬态功率比不再是瞬态源的独特特征，因此双通道后置滤波减少为SISO后置滤波。在相干噪声场的情况下，仅当干扰信号来自与观看方向不同的方向时，才有可能进行区分。由于到达角估计中的误差$\phi$，干扰源的方向应至少偏离目标源的方向$2\phi$。

图6 非相干伪平稳噪声和（a）非相干，（b）相干和（c）漫射瞬态噪声场的瞬态识别质量。

参考（b），$Q_t$是瞬态噪声场的到达角，暗区代表$Q$大于2.78的区域（具有令人满意的识别性能的区域）。

图7 漫射伪平稳噪声和（a）非相干，（b）相干和（c）漫射瞬态噪声场的瞬态鉴别质量。

参考（b），$Q_t$是瞬态噪声场的到达角，暗区表示具有令人满意的识别性能的区域（Q>2.78）

图8 到达角为$Q_s$的相干伪平稳噪声场的瞬态鉴别质量：

（a）瞬态噪声不相干；（b）瞬态噪声相干，频率为1khz；

（c）瞬态噪声相干，$Q_s$为30；（d）瞬态噪声是弥散的，

暗区代表了较好的分辨性能（$Q\geq 2.78$）

图9 在伪平稳噪声为（a）非相干（实线）、漫射（虚线）或（b）相干（$\theta _s$=30（实线）、$\theta _s$=60（虚线）或$\theta _s$=90（虚线）的情况下，瞬态光束与参考比的上限。

5 实验结果

　　在本节中，我们将所提出的后置滤波方法与各种汽车环境中的SISO后过滤进行比较。绩效评估包括客观的质量度量，以及语音频谱图和非正式听力测试的主观研究。

　　两个相距10厘米的麦克风安装在车的遮阳板上。在没有背景噪声(站着的汽车、安静的环境)的情况下，以8khz的采样率记录干净的语音信号。当车速约为60公里/小时时，会录下一个干扰扬声器和汽车噪音信号，司机旁边的车窗或关闭或微开(约5厘米;其他窗户都关着。输入麦克风信号由语音和噪声信号在[-5,10]dB范围内的不同信噪比水平混合产生。

　　双通道GSC波束形成应用于噪声信号。波束形成器输出使用OM-LSA估计器[25]进行增强，称为SISO后置滤波输出。另外，使用第三节中描述的过程增强的波束形成器输出称为双通道后置滤波输出。在我们的评估中使用了三种不同的客观质量测量方法。第一个是[29]定义的分段信噪比。

$$公式49：\begin{aligned} \operatorname{Seg} \mathrm{SNR} &=\frac{1}{L} \sum_{\ell=0}^{L-1} 10 \cdot \log \frac{\sum_{n=0}^{N-1} x^{2}\left(n+\frac{\ell N}{2}\right)}{\sum_{n=0}^{N-1}\left[x\left(n+\frac{\ell N}{2}\right)-\hat{x}\left(n+\frac{\ell N}{2}\right)\right]^{2}}[\mathrm{dB]}\end{aligned}$$

其中L表示信号中的帧数，N = 256是每帧的采样数（对应于32 ms帧，50％和重叠）。每一帧的分段SNR被限制在35 dB到-10dB之间的感知意义范围内^[30]-[31]。该措施同时考虑了残留噪声和语音失真。第二个质量指标是噪声减少量（NR），其定义为

$$公式50：\mathrm{NR}=\frac{1}{\mathcal{L}^{\prime}} \sum_{\ell \in \mathcal{L}^{\prime}} 10 \cdot \log \frac{\sum_{n=0}^{N-1} z_{1}^{2}\left(n+\frac{\ell N}{2}\right)}{\sum_{n=0}^{N-1} \hat{x}^{2}\left(n+\frac{\ell N}{2}\right)}[\mathrm{dB}]$$

其中$\mathcal{L}^{\prime}$表示仅包含噪声的帧集，$\mathcal{L}^{\prime}$表示基数。 NR测量将增强信号中的噪声电平与第一麦克风记录的噪声水平进行比较。第三个质量度量是对数谱距离（LSD），其定义为

$$公式51：\begin{aligned} \mathrm{LSD}=\frac{1}{L} \sum_{\ell=0}^{L-1}\left\{\frac{1}{\frac{N}{2}+1}\right.& \sum_{k=0}^{N / 2}\left[10 \cdot \log \mathcal{A} X\left(k_{s} \ell\right)\right.\left.-10 \cdot \log \mathcal{A} \hat{X}(k, \ell)]^{2}\right\}^{1 / 2}[\mathrm{dB}] \end{aligned}$$

其中$\mathcal{A X}(k, \ell) \triangleq \max \left\{| X(k, \ell)^{2}, \delta\right\}$是频谱功率，截断后的将对数频谱动态范围限制在大约50 dB（即$\[\delta = {10^{ - \frac{{50}}{{10}}}}*\mathop {\max }\limits_{k,\ell } \{ X(k,\ell ){|^2}\} \]$）。

图10 在($\Delta $)麦克风#1，(o)波束形成器输出，(x)单输入单输出(SISO)后置滤波输出，(*)双通道后置滤波输出，和(实线)理论极限后置滤波输出下，在各种车噪条件下的平均分段信噪比：(a)关闭车窗；(b)打开车窗；(c)干扰扬声器。

(c)

图11 针对各种汽车噪声，(o)波束形成器输出，(x)SISO后置滤波输出，(*)双通道后置滤波输出和（实线）理论极限后置滤波输出的平均噪声降低条件：(a)关闭的窗户； (b)打开窗户； (c)干扰扬声器

图12 （$\Delta $）1号麦克风，（o）波束形成器输出，（x）SISO后置滤波输出，（*）双通道后置滤波输出和（实线）理论上的平均对数光谱距离针对各种汽车噪声情况，限制后过滤输出：（a）封闭的窗户；（b）打开窗户；（c）干扰扬声器。

　　图10为不同噪声类型和不同噪声水平下的平均节段信噪比实验结果。在其中一个麦克风，在波束形成器输出，在后置滤波输出，节段信噪比被评估。还考虑了通过计算噪声本身的噪声谱来实现的理论后置滤波极限。图11和图12分别给出了NR和LSD的测定结果。这表明，在汽车环境中，波束形成本身并不能提供足够的降噪效果，因为它对降低扩散噪声[17]的能力有限。此外，在所有噪声条件下，双通道后置滤波始终优于单通道后置滤波。在非平稳噪声环境中(特别是在打开窗户或干扰扬声器的情况下)，前者的性能比后者有更高的改进，但在其他方面的改进并不显著，因为在伪平稳噪声环境中，双通道后置滤波可简化为单通道后置滤波。

图13 语音谱图
（a）麦克风上的原始清晰语音信号1：“拨一二三四五”；
（b）麦克风#1处有噪音信号（汽车噪音、打开车窗、干扰扬声器。SNR=0dB，SegSNR=-6.5dB，LSD=12.5dB）；
（c）波束形成器输出（SegSRN=-5.0dB，NR=6.6dB，LSD=8.0dB）；
（d） SISO后置滤波输出（SegSRN=-3.0dB，NR=16.1dB，LSD=3.9dB）；
（e）双通道后置滤波输出（SegSRN=-0.9dB，NR=26.2db，LSD=2.4db）；
（f）理论极限（SegSNR=-0.5dB，NR=26.4dB，LSD=2.1dB）

图14 通过提议的双通道后置滤波（实线）和理论极限（虚线）获得的对SISO后置滤波的改进轨迹：（a）分段SNR的提高；（b）减少对数光谱距离

　　使用语音谱图对双通道后置滤波和单通道后置滤波进行了主观比较，并通过非正式听力测试进行了验证。图13给出了在信噪比为0 dB时非平稳噪声的语音谱图的典型例子。驾驶员旁边的车窗微开，风吹产生瞬态低频噪声，车辆通过产生宽带瞬态噪声。波束形成器输出[图13(c)]的明显特点是噪音高。它的增强使用SISO后置滤波井抑制伪平稳噪声，但不利地保留瞬态噪声成分。相比之下，采用双通道后置滤波的增强方法得到了较好的降噪效果。进行了主观的非正式听力测试，以验证所需的源组件是否保存完好。

　　图14显示了与SISO后置滤波相比，通过双通道后置滤波和理论极限得到的分段信噪比和LSD度量的改善。在大约400 ms的时间内(25帧，每帧32毫秒，有50%的重叠)对这些轨迹进行平均。在噪声频谱波动的情况下，得到了较SISO后置滤波性能的改善。在某些情况下，分段性信噪比的增加超过4db，而LSD的减少大于5db。SISO后置滤波器在衰减高非平稳噪声成分方面效率低下，因为它缺乏将这些成分与语音成分区分开来的能力。另一方面，所提出的双通道后置滤波方法在不进一步干扰语音成分的情况下，显著降低了背景噪声，无论背景噪声是否平稳。

6 总结

　　我们分析了一种用于广义旁瓣相消器的双通道后置滤波方法，这种方法在非平稳噪声环境中特别有优势。后置滤波包括在波束形成器输出和参考信号处检测瞬态信号，比较它们的瞬态功率，估计信号存在概率，估计波束形成器输出噪声的PSD，以及为最小化对数谱的均方误差而进行的谱增强。基于局部非平稳性的测量方法来检测瞬态信号，并根据瞬态波束参考比将其分为期望的和干扰的两类。

　　介绍了一种瞬态鉴别质量测量方法，量化了波束形成器识别干扰瞬态与源瞬态的能力。在各种噪声场中对这一方法的评价表明，在大范围的频率范围内区分期望瞬态和干扰瞬态是可行的。在相干噪声场的情况下，只有当干扰信号来自比期望源方向至少两倍于到达角不确定度的不同方向时，才有可能进行这种分辨。低频时，波束形成器的指向性消失，高频时，由于空间混叠，瞬态波束参考比不再是瞬态源的显著特征。

　　如果需要的信号是宽带的(例如，语音信号)，我们通过考虑信号存在的全局可能性来提高在低频率和高频率下的瞬态降噪。全局可能性与频率箱的数量有关，这些频率箱可能在一定的频率范围内和给定的时间范围内包含所需的组件。当全局似然值低于某一阈值时，将所有频率箱的先验信号缺失概率重置为1。这也有助于消除来自观测方向的窄带干扰瞬态信号，并以一种对人类听众更愉快的方式均匀地抑制噪声。

　　将提出的后置滤波方法与最先进的SISO后置滤波方法进行了比较。我们证明，单波束形成是不够的，在汽车环境，由于其有限的能力，以减少扩散噪声。SISO后滤波能很好地抑制伪平稳噪声。然而，通过波束形成器泄漏的瞬态噪声分量通过后滤波器进行。单输入单输出（SISO）后滤波器在衰减高度非平稳的噪声分量时效率很低，因为它缺乏区分这些分量和语音分量的能力。相比之下，双通道后滤波在保持所需源分量的同时，显著降低了背景噪声水平（无论是否平稳）。

附录 I

推导(14)- (21)

　　将(11)代入(12)和(13)，使用${{\bf{\Phi }}_{{{\bf{D}}_{\bf{s}}}{{\bf{D}}_s}}}(k,\ell ) = {\lambda _{\bf{s}}}(k,\ell ){{\bf{\Gamma }}_{{{\bf{D}}_s}{{\bf{D}}_s}}}(k,\ell )$和$\mathbf{\Phi}_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)=\lambda_{t}(k, \ell) \Gamma_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)$

$$
\begin{aligned} \phi_{Y Y}(k, \ell)=&[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \mathbf{A} \mathbf{A}^{T} \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)] \lambda_{x}(k ; \ell) \\ &+[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \Gamma_{\mathbf{D}_{s}} \mathbf{D}_{s}(k, \ell) \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)] \lambda_{s}(k, \ell) \\ &+[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \Gamma_{D}(k, \ell) \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)] \lambda_{t}(k, \ell) \\ \phi_{U U}(k, \ell)=& \mathbf{B}^{H}(k) \mathbf{A} \mathbf{A}^{T} \mathbf{B}(k) \lambda_{x}(k, \ell) \\ &+\mathbf{B}^{H}(k) \Gamma_{D_{s}} \mathbf{D}_{s}(k, \ell) \mathbf{B}(k) \lambda_{s}(k, \ell) \\ &+\mathbf{B}^{H}(k) \mathbf{\Gamma}_{\mathbf{D}_{t}}(k, \ell) \mathbf{B}(k) \lambda_{t}(k, \ell) \end{aligned}
$$

因此，(14)和(15)由

$$
\begin{aligned} C_{11}(k, \ell)=&[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \mathbf{A} \mathbf{A}^{T} \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)] \\ C_{12}(k, \ell)=&[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \\ &\left.\times \Gamma_{D, D_{s}}(k, \ell) H(k)-\mathbf{B}(k) H(k, \ell)\right] \\ C_{13}(k, \ell)=&[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \Gamma_{D_{t} D_{t}}(k, \ell) \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \Gamma_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell) \\ C_{21}(k)=& \mathbf{B}^{H}(k) \mathbf{A} \mathbf{A}^{T} \mathbf{B}(k) \\ C_{22}(k)=& \mathbf{B}^{H}(k) \mathbf{\Gamma}_{D_{s}} \mathbf{D}_{s}(k, \ell) \mathbf{B}(k) \\ C_{23}(k, \ell)=& \mathbf{B}^{H}(k) \Gamma_{D_{t} \mathbf{D}_{t}}(k, \ell) \mathbf{B}(k) \end{aligned}
$$

用这些表达式代替固定波束形成器$\mathbf{W}(k)=1 / 2\left[e^{j \Delta_{k} / 2} \quad e^{-j \Delta_{k} / 2}\right]^{H}$的加权矢量，分块矢量$\mathbf{B}(k)=1 / 2\left[e^{j \Delta_{k} / 2} \quad e^{-j \Delta_{k} / 2}\right]^{H}$，最佳噪声消除器（10）和噪声空间相干函数

\begin{array}{ll}{\Gamma_{\mathbf{D}_{s} \mathbf{D}_{s}}(k, \ell)=}{\left[\begin{array}{cc}{1} & {\Gamma_{s}(k, \ell)} \\ {\Gamma_{s}^{*}(k, \ell)} & {1}\end{array}\right]} \\
{\boldsymbol{\Gamma}_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)=\left[\begin{array}{cc}{1} & {\Gamma_{t}(k, \ell)} \\ {\Gamma_{t}^{*}(k, \ell)} & {1}\end{array}\right]}\end{array}

产生（16）-（20）。

附录 II

不同声环境下$Q(k)$和$\Omega _{high}(k)$的计算

　　在本附录中，我们计算了各种声学环境的瞬态识别质量$Q(k)$和阈值$\Omega_{high}(k)$。假定伪平稳和瞬态噪声场是非相干，相干或扩散的。对于非相干噪声场，所有频率的空间相干函数均为零。如果噪声场是相干的，则其空间相干函数为$\tau (k)=\exp (-j(w_kl/c)\sin \theta $，即到达角。对于散布噪声场，空间相干函数为$\tau (k)=\sin (w_kl/c)/(w_kl/c)=sinc (w_kl/c)$。因此，通过将相应的空间相干函数代入（47）和（48），可以计算出各种伪平稳和瞬态噪声场的$Q(k)$和$\Omega_{high}(k)$。

A.非相干伪平稳噪声

　　假设伪平稳噪声是不相干的$\tau_s(k)=0$，我们有

$$公式52：Q(k) =\cot ^{2}\left(\frac{\Delta_{k}}{2}\right) \frac{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}}{1+\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}}$$

$$公式53：\Omega_{\text {high }}(k) =0.57 \cot ^{2}\left(\frac{\Delta_{k}}{2}\right)$$

如果瞬态噪声也不连贯$(\tau_t(k)=0)$，则瞬态鉴别质量降低到

$$公式54：
Q(k)=\cot ^{2}\left(\frac{\Delta_{k}}{2}\right)
$$

对于相干瞬态噪声场，空间相干函数为${\tau _t}(k) = \exp ( - j({w_k}l/c)\sin {\theta _t}) \buildrel \Delta \over = \exp ( - j{w_k}{\tau _t})$，其中$\theta _t$是干扰瞬态噪声场的到达角。在这种情况下，瞬态鉴别质量为

$$公式55：
Q\left(k, \theta_{t}\right)=\cot ^{2}\left(\frac{\Delta_{k}}{2}\right) \frac{1-\cos \left(\omega_{k} \tau_{t}-\Delta_{k}\right)}{1+\cos \left(\omega_{k} \tau_{t}-\Delta_{k}\right)}
$$

对于扩散瞬态噪声场，我们有

$$公式56：
Q(k)=\cot ^{2}\left(\frac{\Delta_{k}}{2}\right) \frac{1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}}{1+\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}}
$$

B.弥漫伪平稳噪声

　　假设伪平稳噪声是扩散的，我们有(见页面底部的(57)和(58))。非相干瞬态噪声场

$$公式57：Q(k)=\frac{\cot ^{2}\left(\frac{\Delta_{k}}{2}\right)\left[1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right]^{2}\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}\right]}{\left|e^{j \Delta_{k}}-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right|^{2}+\Re\left\{e^{-j \Delta_{k}} \Gamma_{t}(k)\left[e^{j \Delta_{k}}-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right]^{2}\right\}}$$

$$公式58：\Omega_{\mathrm{high}}(k) =0.57 \frac{\cot ^{2}\left(\frac{\Delta_{k}}{2}\right)\left[1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right]^{2}}{\left[1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}\right]^{2}}$$

$$公式59：
Q(k)=\frac{\cot ^{2}\left(\frac{\Delta_{k}}{2}\right)\left[1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right]^{2}}{1-2 \operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}+\operatorname{sinc}^{2}\left(\frac{\omega_{k} \ell}{c}\right)}
$$

相干暂态噪声场见(60)。对于扩散瞬态噪声场

$$公式61：
Q(k)=\cot ^{2}\left(\frac{\Delta_{k}}{2}\right) \frac{1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)}{1+\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)}
$$

C.相干伪平稳噪声

　　假设伪平稳噪声是相干的，则其空间相干函数为${\tau _s}(k) = \exp ( - j({w_k}l/c)\sin {\theta _s}) \buildrel \Delta \over = \exp ( - j{w_k}{\tau _s})$，其中$\theta _s$为到达角。在这种情况下

$$公式62：
{Q\left(k, \theta_{s}\right)=\frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\omega_{k}}{2}\right)} \frac{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}}{1-\Re\left\{e^{j \omega_{k} \tau_{s}} \Gamma_{t}(k)\right\}}}
$$

$$公式63：

{\Omega_{\text {high }}(k)=0.57 \frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\Delta_{k}}{2}\right) \sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}-\frac{\Delta_{k}}{2}\right)}}

非相干瞬态噪声场

$$公式64：
Q\left(k, \theta_{s}\right)=\frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\Delta_{k}}{2}\right)}
$$

对于相干瞬态噪声场

$$公式65：
Q\left(k, \theta_{s}, \theta_{t}\right)=\frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\Delta_{k}}{2}\right)} \frac{1-\cos \left(\omega_{k} \tau_{t}-\Delta_{k}\right)}{1-\cos \left(\omega_{k} \tau_{t}-\omega_{k} \tau_{s}\right)}
$$

对于扩散瞬态噪声场

$$公式66：
Q\left(k, \theta_{s}\right)=\frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\Delta_{k}}{2}\right)} \frac{1-\sin c\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}}{1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \left(\omega_{k} \tau_{s}\right)}
$$

参考文献

[1] M. S. Brandstein and D. B. Ward, Eds., Microphone Arrays: Signal Processing Techniques and Applications. Berlin, Germany: Springer- Verlag, 2001.
[2] C. Marro, Y. Mahieux, and K. U. Simmer, Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering, IEEE Trans. Speech Audio Processing, vol. 6, pp. 240 259, May 1998.
[3] K. U. Simmer, J. Bitzer, and C. Marro, Post-Filtering Techniques. Berlin, Germany: Springer-Verlag, 2001, ch. 3, pp. 39 60.
[4] R. Zelinski, A microphone array with adaptive post-filtering for noise reduction in reverberant rooms, in Proc. 13th IEEE Internat. Conf. Acoust. Speech Signal Process., New York, Apr. 11 14, 1988, pp. 2578 2581.
[5] , Noise reduction based on microphone array with LMS adaptive post-filtering, Electron. Lett., vol. 26, no. 24, pp. 2036 2037, Nov. 1990.
[6] K. U. Simmer and A. Wasiljeff, Adaptive microphone arrays for noise suppression in the frequency domain, in Proc. 2nd Cost-229 Workshop on Adaptive Algorithms in Communications, Bordeaux, France, October 30, 1992, pp. 185 194.
[7] S. Fischer and K. U. Simmer, An adaptive microphone array for hands-free communication, in Proc. 4th Int. Workshop on Acoustic Echo and Noise Control, Røros, Norway, June 21 23, 1995, pp. 44 47.
[8] , Beamforming microphone arrays for speech acquisition in noisy environments, Speech Commun., vol. 20, no. 3 4, pp. 215 227, Dec. 1996.
[9] K. U. Simmer, S. Fischer, and A. Wasiljeff, Suppression of coherent and incoherent noise using a microphone array, Annales Des Télécommunications, vol. 49, no. 7 8, pp. 439 446, July 1994.
[10] J. Bitzer, K. U. Simmer, and K.-D. Kammeyer, Multichannel noise reduction-algorithms and theoretical limits, in Proc. Eur. Signal Processing Conf., Rhodes, Greece, September 8 11, 1998, pp. 105 108.
[11] , Theoretical noise reduction limits of the generalized sidelobe canceller (GSC) for speech enhancement, in Proc. 24th IEEE Int. Conf. Acoust. Speech Signal Process., Phoenix, AZ, March 15 19, 1999, pp. 2965 2968.
[12] , Multi-microphone noise reduction by post-filter and superdirective beamformer, in Proc. 6th Int. Workshop on Acoustic Echo and Noise Control, Pocono Manor, PA, September 27 30, 1999, pp. 100 103.
[13] , Multi-microphone noise reduction techniques as front-end devices for speech recognition, Speech Commun., vol. 34, no. 1 2, pp. 3 12, Apr. 2001.
[14] J. Meyer and K. U. Simmer, Multi-channel speech enhancement in a car environment using Wiener filtering and spectral subtraction, in Proc. 22th IEEE Int. Conf. Acoust. Speech Signal Process., Munich, Germany, Apr. 20 24, 1997, pp. 1167 1170.
[15] S. Fischer and K.-D. Kammeyer, Broadband beamforming with adaptive postfiltering for speech acquisition in noisy environments, in Proc. 22th IEEE Int. Conf. Acoust. Speech Signal Process., Munich, Germany, April 20 24, 1997, pp. 359 362.
[16] I. A. McCowan, C. Marro, and L. Mauuary, Robust speech recognition using near-field superdirective beamforming with post-filtering, in Proc. 25th IEEE Int. Conf. Acoust. Speech Signal Process., Istanbul, Turkey, June 5 9, 2000, pp. 1723 1726.
[17] S. Gannot, D. Burshtein, and E. Weinstein, Signal enhancement using beamforming and nonstationarity with applications to speech, IEEE Trans. Signal Processing, vol. 49, pp. 1614 1626, Aug. 2001.
[18] I. Cohen and B. Berdugo, Microphone array post-filtering for nonstationary noise suppression, in Proc. 27th IEEE Int. Conf. Acoust. Speech Signal Process., Orlando, FL, May 13 17, 2002, pp. 901 904.
[19] Multi-channel post-filtering in non-stationary noise environments, IEEE Trans. Signal Processing, to be published.
[20] L. J. Griffiths and C. W. Jim, An alternative approach to linearly constrained adaptive beamforming, IEEE Trans. Antennas Propagat., vol. AP-30, no. 1, pp. 27 34, Jan. 1982.
[21] C.W. Jim, A comparison of two LMS constrained optimal array structures, Proc. IEEE, vol. 65, pp. 1730 1731, Dec. 1977.
[22] B.Widrow and S. D. Stearns, Adaptive Signal Processing. Englewood Cliffs, NJ: Prentice-Hall, 1985.
[23] S. Nordholm, I. Claesson, and P. Eriksson, The broadband Wiener solution for Griffiths-Jim beamformers, IEEE Trans. Signal Processing, vol. 40, pp. 474 478, Feb. 1992.
[24] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, pp. 1109 1121, Dec. 1984.
[25] I. Cohen and B. Berdugo, Speech enhancement for nonstationary noise environments, Signal Process., vol. 81, no. 11, pp. 2403 2418, Oct. 2001.
[26] I. Cohen, Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging, IEEE Trans. Speech Audio Processing, vol. 11, pp. 466 475, Sept. 2003.
[27] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-33, pp. 443 445, Apr. 1985.
[28] R. N. McDonough and A. D. Whalen, Detection of Signals in Noise, 2nd ed. San Diego, CA: Academic Press, 1995.
[29] S. R. Quackenbush, T. P. Barnwell, and M. A. Clements, Objective Measures of Speech Quality. Englewood Cliffs, NJ: Prentice-Hall, 1988.
[30] J. R. Deller, J. H. L. Hansen, and J. G. Proakis, Discrete-Time Processing of Speech Signals, 2nd ed. New York: IEEE Press, 2000.
[31] P. E. Papamichalis, Practical Approaches to Speech Coding. Englewood Cliffs, NJ: Prentice-Hall, 1987.

posted @ 2020-01-02 13:59 凌逆战阅读(2661) 评论(0) 收藏举报

刷新页面返回顶部

波束形成论文翻译：2003_Analysis of Two-Channel Generalized Sidelobe Canceller (GSC) With Post-Filtering

摘要