稀疏贝叶斯学习详解--证据和后验概率的计算
简介
稀疏贝叶斯学习(Sparse Bayesian Learning,SBL)是稀疏信号重构的方法之一,其性能相当于重加权的$\ell_1$范数恢复方法,并且不需要设置正则化参数,在目标定位,生物医学信号提取等方面被广泛应用。但是其涉及复杂的数学知识包括高斯函数、最大似然估计、向量求导、贝叶斯估计、EM算法等让很多人望而却步。笔者在学习此部分内容也曾花费大量时间,为解决小伙伴们的烦恼,本系列文章将详细解读稀疏贝叶斯学习的基本原理及其对应的数学推导,大致分为几块,包括证据和后验概率的计算、EM算法部分推导等。下面先对证据和后验概率的计算推导进行叙述。以下需要用到的数学基础包括高斯函数的基本性质、向量的求导。
模型
先考虑对一个向量的观测,假设有观测矩阵 $\bm{\Phi}\in C^{N\times M}$,对未知变量$\bm{\omega}\in C^{M\times1}$进行观测,记为
\[\bm{t}=\bm{\Phi}\bm{\omega}+\bm{\epsilon}\qquad(1)\]
式中$t\in C^{N\times1}$,观测矩阵也称之为过完备基,这里假定$\bm{\omega}$是稀疏变量,即$\bm{\omega}$的大部分元素都为0,$\epsilon$ 为观测噪声。SBL要解决的问题是根据已知的$\bm{t}$和${\bm{\Phi}}$估计出$\bm{\omega}$,其实就是稀疏信号的重构。
首先解释下贝叶斯公式:
\[p(\omega|t)=\frac{p(t|\omega)p(\omega)}{p(t)}\qquad\]
$p(\omega)$称之为先验概率,表示在观测之前的概率,$p(\omega|t)$称之为后验概率,是观测之后的概率,$p(t|\omega)$是似然概率,在求最大似然估计的时候就是使用的该概率形式,$p(t)$表示证据。很多情况下,我们要估计$\bm{\omega}$可由$argmax_\omega p(\omega|x)$求得,但上述后验概率不易求得。因证据$p(x)$与$\bm{\omega}$无关,上述后验概率最大化可由贝叶斯公式转化为似然概率和先验概率的乘积的最大化求得,即$argmax_\omega p(x|\omega)p(\omega)$。
证据推导
SBL采用了神经网络里常用的自动相关决策理论(Automatic Relevance Determination)来获取稀疏解。首先假定$\bm{\epsilon}$符合均值为0,方差为$\sigma^2\bm{I}_N$的高斯分布,则可得出$\bm{t}$符合均值为$\bm{\Phi}\bm{\omega}$,方差为$\sigma^2\bm{I}_N$的高斯分布,即
\[p(\bm{t}|\bm{\omega})=(2\pi\sigma^2)^{-N/2}exp[-\frac{1}{2\sigma^2}(\bm{t}-\bm{\Phi\omega})^H(\bm{t}-\bm{\Phi\omega})]\qquad(2)\]
根据ARD,其假定$\bm{\omega}$由超参数$\bm{\gamma}$产生,假定其$\omega_i$由$\gamma_i$控制,并符合均值为0,方差为$\gamma_i$的高斯分布,即
\[p(\bm{\omega};\bm{\gamma})=(2\pi)^{\frac{-M}{2}}\left|\bm{\Gamma}\right|^{-\frac{1}{2}}e^{-\frac{1}{2}\bm{\omega}^H\bm{\Gamma^{-1}\omega}}\qquad(3)\]
式中$\bm{\Gamma}=diag(\bm{\gamma})$。
利用全概率公式即可得第二类似然函数为
\[p(\bm{t};\bm{\gamma})=\int _{\bm{\omega}}{p(\bm{t}|\bm{\omega})p(\bm{\omega};\bm{\gamma})d\bm{\omega}}\]
将(2)和(3)代入到(4)中,可得
\[p(\bm{t};\bm{\gamma})=\int_{\bm{\omega}}(2\pi\sigma^2)^{-N/2}(2\pi)^{-M/2}\left|\bm{\Gamma}\right|^{-\frac{1}{2}}exp[-\frac{1}{2\sigma^2}(\bm{t}-\bm{\Phi\omega})^H(\bm{t}-\bm{\Phi\omega})-\frac{1}{2}\bm{\omega}^H\bm{\Gamma^{-1}\omega}]d\bm{\omega}\]
其实该式可以看成两个高斯函数进行卷积,根据高斯函数性质知,两个高斯函数卷积的结果仍为高斯函数。所以只需要求得卷积后的高斯函数的均值和期望,就相当于求出上式的积分了。
取其指数,令
\[L=-\frac{1}{2\sigma^2}(\bm{t}-\bm{\Phi\omega})^H(\bm{t}-\bm{\Phi\omega})-\frac{1}{2}\bm{\omega}^H\bm{\Gamma^{-1}\omega} \qquad(5)\]
进一步,可以得到
\[L=-\frac{1}{2\sigma^2}[\bm{\omega}^H(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})\bm{\omega}-\bm{t}^H\bm{\Phi}\bm{\omega}-\bm{\omega}^H\bm{\Phi}^H\bm{t}+\bm{t}^H\bm{t}]\]
$L$是关于$\bm{\omega}$的二次项。这里求解上述积分要用到高斯函数的以下性质:
\[\int_{\bm{\omega}}e^{-(\bm{A\omega}+\bm{b})^2}d\bm{\omega}=C\]
式中$\bm{A}$是矩阵,$\bm{b}$是向量,其维数应满足上式的乘法规则。$C$是常数,具体是多少,我们可以不关注,感兴趣的话可以自己推导或查阅相关文献。我们需要关注的是似然函数对$\bm{\omega}$积分后$\bm{t}$项和$\sigma$项。现在的问题是我们需要将$L$表达成$-(\bm{A\omega}+\bm{b})^2+f(t,\sigma^2)$的样式,并求得$f(t,\sigma^2)$。显然,我们将满足$\bm{A\omega}+\bm{b}=\bm{0}$的$\bm{\omega}$代入其中,即得到$f(t,\sigma^2)$。先求$\bm{\omega}$,下面通过求导完成。
\[\frac{dL}{d\bm{\omega}}=\frac{1}{\sigma^2}[(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})\bm{\omega}-\bm{\Phi}^H\bm{t}]\]
令$\frac{dL}{d\bm{\omega}}=0$可得
\[\bm{\omega}=(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H\bm{t}\qquad(6)\]
将(6)代入(5)中,得到
\[L=-\frac{1}{2\sigma^2}\bm{t}^H[\bm{I}-\bm{\Phi}(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H]\bm{t}\]
因此全概率公式积分后得
\[p(\bm{t};\bm{\gamma})=Cexp\{-\frac{1}{2\sigma^2}\bm{t}^H[\bm{I}-\bm{\Phi}(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H]\bm{t}\}\]
现在可以看出$p(\bm{t};\bm{\gamma})$是一个高斯分布,其均值为$\bm{0}$,协方差矩阵$\Sigma_t$满足$\Sigma_t^{-1}=\frac{1}{\sigma^2}[\bm{I}-\bm{\Phi}(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H].$
$\Sigma_t$可由矩阵求逆公式得到,如下:
\[\Sigma_t=\sigma^2 \bm{I}+\bm{\Phi\Gamma\Phi}^H\]
到此,我们完成了证据或者叫第二类似然函数的概率分布的推导。
后验概率推导
下面我们继续完成后验概率的推导,根据贝叶斯公式,有
\[p(\bm{\omega}|\bm{t};\bm{\gamma})=\frac{p(\bm{t}|\bm{\omega})p(\bm{\omega};\bm{\gamma})}{p(\bm{t};\bm{\gamma})} \qquad(7)\]
其实利用前面的结果,该式大部分都求得差不多了。证据(分母部分)已求得。分子部分是两个高斯概率密度函数的乘积,其结果仍为高斯分布。再与分母部分相除,最终还是为高斯分布。将前面求得的结果分别代入到(7), 忽略常数部分,得
\[p(\bm{\omega}|\bm{t};\bm{\gamma})=exp\{-\frac{1}{2\sigma^2}[\bm{\omega}^H(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})\bm{\omega}-\bm{t}^H\bm{\Phi}\bm{\omega}-\bm{\omega}^H\bm{\Phi}^H\bm{t}+\bm{t}^H\bm{t}]+\frac{1}{2}\bm{t}^H\bm{\Sigma}^{-1}\bm{t}\}\]
其均值为指数部分对$\bm{\omega}$的一阶导数零点,协方差矩阵的逆为指数部分对$\bm{\omega}$的二阶导数。
故
\[\Sigma_{\omega}^{-1}=\frac{1}{\sigma^2}\bm{\Phi}^H\bm{\Phi}+\bm{\Gamma}^{-1}\]
\[\bm{\mu_{\omega}}=(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H\bm{t}\label{omega}\]
一般情况下,$M$往往远大于$N$,所以求$\bm{\Sigma_{\omega}}$的逆的复杂度远远高于$\bm{\Sigma_t}$的逆的复杂度,所以运用矩阵和求逆公式将$\bm{\Sigma_{\omega}^{-1}}$转化为求$\bm{\Sigma_t^{-1}}.$结果如下:
\[\Sigma_{\omega}=\bm{\Gamma}-\bm{\Gamma\Phi}^H\bm{\Sigma}_t^{-1}\bm{\Phi\Gamma}\]
\[\bm{\mu_{\omega}}=\bm{\Gamma\Phi}^H\bm{\Sigma}_t^{-1}\bm{t}\]
至此,关于稀疏贝叶斯算法中的证据和后验概率的推导解释完毕,对于多测量模式下(Multiple Mearsure Vector)的推导可以直接拓展过来,这里不进行详述,可以参考相关文献。
Reference
[1] D. P. Wipf and B. D. Rao, "Sparse Bayesian learning for basis selection," IEEE Transactions on Signal Processing, vol. 52, no. 8, pp. 2153-2164, 2004.
[2] D. P. Wipf and B. D. Rao, "An empirical Bayesian strategy for solving the simultaneous sparse approximation problem," IEEE Transactions on Signal Processing, vol. 55, no. 7, pp. 3704-3716, 2007.
附矩阵求逆公式
\[(A+UBV)^{-1}=A^{-1}-A^{-1}UB(I+VA^{-1}UB)^{-1}VA^{-1} \]