高斯过程

高斯过程描述

\(1.这里假定有人的一生,x轴是对应的时间(t_1,t_2,...,t_{100}),0-100岁,y轴是表现值(姑且这么定)\)
\(2.每个时间点上都有一个对应的表现值随机变量(\xi_{t_1},\xi_{t_2}...),这些都是随机变量,也就是是一个概率分布,所以每个点上都有一个竖起的波浪线,对应一个高斯分布,注意每个时刻的高斯分布都是独立的,均值和方差都不一样,你可以这么形象的理解,这个人生时刻,你努力点,可能就表现好点,堕落一点,就表现差点(对应方差),但是你的出生条件摆在那边(均值)\)
\(3.累计这样的一些时刻的点,连成一条蓝色或者红色的线,就称为高斯过程的一个样本,注意蓝色和红色线都只是一个样本\)
\(4.整个高斯过程满足\)

\[GP(m(t),k(s,t)) \]

\[\begin{cases} m(t)=\mathbb{E}[\xi_t]\\ k(s,t)=\mathbb{E}[\xi_s-E[\xi_s]]\mathbb{E}[\xi_t-E[\xi_t]] \end{cases}\]

\(m(t)是均值,是t的函数,k(s,t)是协方差矩阵,也是一个核函数\)


贝叶斯线性回归

\(1.p(w|D)=\mathcal{N}(w|\mu_w,\Sigma_w)\)
\(\begin{cases} \mu_w = \sigma^{-2}A^{-1}X^TY\\ \Sigma_w = A^{-1} \end{cases}\)
\(A=\sigma^{-2}X^TX+\Sigma_p^{-1}\)
\(\Sigma_p是先验,p(w)=\mathcal{N}(0,\Sigma_p),PRML书上就是指精度\beta\)
这里的公式可以参考PRML 公式 3.53,3.54
\(2.给定预测值x^*,预测分布\)
\(p(f(x^*)|Data,x^*)=\mathcal{N}(x^*\mu_w,{x^*}^T\Sigma_wx^*)\)
\(p(y^*|Data,x^*)=\mathcal{N}(x^*\mu_w,{x^*}^T\Sigma_wx^*+\sigma^2)\)

线性回归模型
\(\begin{cases} f(x)+w^Tx=x^Tw \\ y=f(x)+\epsilon ,\epsilon \sim \mathcal{N}(0,\sigma^2) \end{cases}\)


考虑f(x)是非线性的情况

要转到高维情况,一般高维不好,这里恰恰要升维-SVM

回归模型中使用kernel函数

  • 从频率派的角度推导核函数,预测是正态分布,求正态分布的均值和方差

\(f(x^*)|X,Y,x^* \sim \mathcal{N}(x^*\mu_w,{x^*}^T\Sigma_wx^*)\)
\(\begin{cases} \mu_w = \sigma^{-2}A^{-1}X^TY\\ \Sigma_w = A^{-1} \end{cases}\)
\(A=\sigma^{-2}X^TX+\Sigma_p^{-1}\)
\(\Sigma_p是先验,p(w)=\mathcal{N}(0,\Sigma_p),PRML书上就是指精度\beta\)
\(如果有映射 \phi:x\to Z,x\in \mathbb{R}^p,Z=\phi(x)\in \mathbb{R}^q,q>p\)
\(定义\Phi=\phi(x)=(\phi(x_1),\phi(x_2),…,\phi(x_N))^T_{N\times q}\)
\(那么有:f(x)=\phi(x)^Tw\)

\(f(x^*)|X,Y,x^* \sim \mathcal{N}(\sigma^{-2}\phi(x^*)^TA^{-1}\Phi^TY,\phi(x^*)^TA^{-1}\phi(x^*))\)
\(A=\sigma^{-2}\Phi^T\Phi+\Sigma_p^{-1}\)

\(怎么计算A^{-1}?\) woodbury formula
\(A=\sigma^{-2}\Phi^T\Phi+\Sigma_p^{-1}\)
\(\Leftrightarrow A\Sigma_p = \sigma^{-2}\Phi^T\Phi \Sigma_p+I\)
\(\Leftrightarrow A\Sigma_p\Phi^T = \sigma^{-2}\Phi^T\Phi \Sigma_p \Phi^T+\Phi^T = \sigma^{-2}\Phi^T(K+\sigma^2 I)\)
\(\Leftrightarrow \Sigma_p\Phi^T = \sigma^{-2} A^{-1}\Phi^T(K+\sigma^2 I)\)
\(\Leftrightarrow \sigma^{-2}A^{-1}\Phi^T =\Sigma_p\Phi^T (K+\sigma^2 I)^{-1}\)
\(K=\Phi \Sigma_p \Phi^T\)
\(\Leftrightarrow \sigma^{-2}\phi(x^*)^TA^{-1}\Phi^TY = \phi(x^*) \Sigma_p\Phi^T (K+\sigma^2 I)^{-1}Y\)

\(f(x^*)|X,Y,x^* \sim \mathcal{N}(\sigma^{-2}\phi(x^*)^TA^{-1}\Phi^TY,\phi(x^*)^TA^{-1}\phi(x^*))\)
\(A=\sigma^{-2}\Phi^T\Phi+\Sigma_p^{-1}\)

\(这里最终推导出来的就是f(x^*)|X,Y,x^*的期望值\)

上面算好了均值,然后算方差

用woodbury Formula求\(A=\sigma^{-2}\Phi^T\Phi+\Sigma_p^{-1}\)
\((A+UCV)^{-1}=A^{-1}-A^{-1}U(C^{-1}+VA^{-1}U)^{-1VA^{-1}}\)

推导略

结论-方差
\(\phi(x^*)^T\Sigma_p\phi(x^*)-\phi(x^*)^T\Sigma_p\Phi^T(K+\sigma^2I)^{-1}\Phi \Sigma_p\phi(x^*)\)
最后有预测分布如下
\(f(x^*)|X,Y,x^* \sim \mathcal{N}(\sigma^{-2}\phi(x^*)^TA^{-1}\Phi^TY,\phi(x^*)^T\Sigma_p\phi(x^*)-\phi(x^*)^T\Sigma_p\Phi^T(K+\sigma^2I)^{-1}\Phi \Sigma_p\phi(x^*)\)

\(K=\Phi \Sigma_p \Phi^T\) 是正定核

这里建立了,高斯过程,核函数,贝叶斯回归之间的关系
由核函数就可以直接定义贝叶斯回归

不同的视角看贝叶斯回归

贝叶斯回归可以从两个角度观察
1.weight-space view 权空间视角
\(f(x)=\phi^T(x)w\)
2.function-space view 函数空间视角
\(y=f(x)+\epsilon\)

\(GP(m(t),k(s,t))\)证明,为什么GP能由这两个函数m,k来表达

高斯过程存在性定理,略

贝叶斯方法推导核函数

  • 从贝叶斯派的角度推导,直接推导后验的均值和方差

\(给定先验w\sim \mathbb{N}(0,\Sigma_p)\)
\(因为有f(x)=\phi(x)^Tw\)
\(所以\mathbb{E}[f(x)]=\mathbb{E}[\phi(x)^Tw]=\phi(x)^TE[w]=0\)
\(\forall x,x’\in \mathbb{R}^{p}\)
\(cov(f(x),f(x’))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])]\mathbb{E}[(f(x’)-\mathbb{E}[f(x’)])]\)
\(=\mathbb{E}[f(x)\cdot f(x’)]\)
\(=\mathbb{E}[\phi(x)^T\cdot w\phi(x’)^Tw]\)
\(=\mathbb{E}[\phi(x)^Tw\cdot w^T\phi(x’)]\)
\(=\phi(x)^T\mathbb{E}[ww^T]\phi(x’)\)
\(=\phi(x)^T\Sigma_p\phi(x’)-kernel 函数\)
\(因为\mathbb{E}[ww^T]=\mathbb{E}[(w-0)(w^T-0)]=cov(w)=\Sigma_p\)

核贝叶斯回归的计算过程

预测分布

\[p(y^*|X,Y,x^*)=\int_fp(y^*|f,X,Y,x^*)p(f|X,Y,x^*)df \]

对于数据集来说,取 \(f(X)\sim\mathcal{N}(\mu(X),k(X,X)),Y=f(X)+\varepsilon\sim\mathcal{N}(\mu(X),k(X,X)+\sigma^2\mathbb{I})\)。预测任务的目的是给定一个新数据序列 \(X^*=(x_1^*,\cdots,x_M^*)^T\),得到 \(Y^*=f(X^*)+\varepsilon\)。我们可以写出:

\[\begin{pmatrix}Y\\f(X^*)\end{pmatrix}\sim\mathcal{N}\left(\begin{pmatrix}\mu(X)\\\mu(X^*)\end{pmatrix},\begin{pmatrix}k(X,X)+\sigma^2\mathbb{I}&k(X,X^*)\\k(X^*,X)&k(X^*,X^*)\end{pmatrix}\right) \]

根据高斯分布的方法:

\[\begin{align}x=\begin{pmatrix}x_a\\x_b\end{pmatrix}\sim\mathcal{N}\left(\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix},\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\right)\\ x_b|x_a\sim\mathcal{N}(\mu_{b|a},\Sigma_{b|a})\\ \mu_{b|a}=\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)+\mu_b\\ \Sigma_{b|a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{align}\]

可以直接写出:

\[p(f(X^*)|X,Y,X^*)=p(f(X^*)|Y)\\ =\mathcal{N}(k(X^*,X)[k(X,X)+\sigma^2\mathbb{I}]^{-1}(Y-\mu(X))+\mu(X^*),\\ k(X^*,X^*)-k(X^*,X)[k(X,X)+\sigma^2\mathbb{I}]^{1}k(X,X^*))\]

所以对于 \(Y=f(X^*)+\varepsilon\)

\[\mathcal{N}(k(X^*,X)[k(X,X)+\sigma^2\mathbb{I}]^{-1}(Y-\mu(X))+\mu(X^*),\\ k(X^*,X^*)-k(X^*,X)[k(X,X)+\sigma^2\mathbb{I}]^{1}k(X,X^*)+\sigma^2\mathbb{I}\]

我们看到,函数空间的观点更加简单易于求解。

posted @ 2022-04-05 16:18  筷点雪糕侠  阅读(195)  评论(0编辑  收藏  举报