高斯过程
高斯过程描述
\(1.这里假定有人的一生,x轴是对应的时间(t_1,t_2,...,t_{100}),0-100岁,y轴是表现值(姑且这么定)\)
\(2.每个时间点上都有一个对应的表现值随机变量(\xi_{t_1},\xi_{t_2}...),这些都是随机变量,也就是是一个概率分布,所以每个点上都有一个竖起的波浪线,对应一个高斯分布,注意每个时刻的高斯分布都是独立的,均值和方差都不一样,你可以这么形象的理解,这个人生时刻,你努力点,可能就表现好点,堕落一点,就表现差点(对应方差),但是你的出生条件摆在那边(均值)\)
\(3.累计这样的一些时刻的点,连成一条蓝色或者红色的线,就称为高斯过程的一个样本,注意蓝色和红色线都只是一个样本\)
\(4.整个高斯过程满足\)
\(m(t)是均值,是t的函数,k(s,t)是协方差矩阵,也是一个核函数\)
贝叶斯线性回归
\(1.p(w|D)=\mathcal{N}(w|\mu_w,\Sigma_w)\)
\(\begin{cases}
\mu_w = \sigma^{-2}A^{-1}X^TY\\
\Sigma_w = A^{-1}
\end{cases}\)
\(A=\sigma^{-2}X^TX+\Sigma_p^{-1}\)
\(\Sigma_p是先验,p(w)=\mathcal{N}(0,\Sigma_p),PRML书上就是指精度\beta\)
这里的公式可以参考PRML 公式 3.53,3.54
\(2.给定预测值x^*,预测分布\)
\(p(f(x^*)|Data,x^*)=\mathcal{N}(x^*\mu_w,{x^*}^T\Sigma_wx^*)\)
\(p(y^*|Data,x^*)=\mathcal{N}(x^*\mu_w,{x^*}^T\Sigma_wx^*+\sigma^2)\)
线性回归模型
\(\begin{cases}
f(x)+w^Tx=x^Tw \\
y=f(x)+\epsilon ,\epsilon \sim \mathcal{N}(0,\sigma^2)
\end{cases}\)
考虑f(x)是非线性的情况
要转到高维情况,一般高维不好,这里恰恰要升维-SVM
回归模型中使用kernel函数
- 从频率派的角度推导核函数,预测是正态分布,求正态分布的均值和方差
\(f(x^*)|X,Y,x^* \sim \mathcal{N}(x^*\mu_w,{x^*}^T\Sigma_wx^*)\)
\(\begin{cases}
\mu_w = \sigma^{-2}A^{-1}X^TY\\
\Sigma_w = A^{-1}
\end{cases}\)
\(A=\sigma^{-2}X^TX+\Sigma_p^{-1}\)
\(\Sigma_p是先验,p(w)=\mathcal{N}(0,\Sigma_p),PRML书上就是指精度\beta\)
\(如果有映射 \phi:x\to Z,x\in \mathbb{R}^p,Z=\phi(x)\in \mathbb{R}^q,q>p\)
\(定义\Phi=\phi(x)=(\phi(x_1),\phi(x_2),…,\phi(x_N))^T_{N\times q}\)
\(那么有:f(x)=\phi(x)^Tw\)
\(f(x^*)|X,Y,x^* \sim \mathcal{N}(\sigma^{-2}\phi(x^*)^TA^{-1}\Phi^TY,\phi(x^*)^TA^{-1}\phi(x^*))\)
\(A=\sigma^{-2}\Phi^T\Phi+\Sigma_p^{-1}\)
\(怎么计算A^{-1}?\) woodbury formula
\(A=\sigma^{-2}\Phi^T\Phi+\Sigma_p^{-1}\)
\(\Leftrightarrow A\Sigma_p = \sigma^{-2}\Phi^T\Phi \Sigma_p+I\)
\(\Leftrightarrow A\Sigma_p\Phi^T = \sigma^{-2}\Phi^T\Phi \Sigma_p \Phi^T+\Phi^T = \sigma^{-2}\Phi^T(K+\sigma^2 I)\)
\(\Leftrightarrow \Sigma_p\Phi^T = \sigma^{-2} A^{-1}\Phi^T(K+\sigma^2 I)\)
\(\Leftrightarrow \sigma^{-2}A^{-1}\Phi^T =\Sigma_p\Phi^T (K+\sigma^2 I)^{-1}\)
\(K=\Phi \Sigma_p \Phi^T\)
\(\Leftrightarrow \sigma^{-2}\phi(x^*)^TA^{-1}\Phi^TY = \phi(x^*) \Sigma_p\Phi^T (K+\sigma^2 I)^{-1}Y\)
\(f(x^*)|X,Y,x^* \sim \mathcal{N}(\sigma^{-2}\phi(x^*)^TA^{-1}\Phi^TY,\phi(x^*)^TA^{-1}\phi(x^*))\)
\(A=\sigma^{-2}\Phi^T\Phi+\Sigma_p^{-1}\)
\(这里最终推导出来的就是f(x^*)|X,Y,x^*的期望值\)
上面算好了均值,然后算方差
用woodbury Formula求\(A=\sigma^{-2}\Phi^T\Phi+\Sigma_p^{-1}\)
\((A+UCV)^{-1}=A^{-1}-A^{-1}U(C^{-1}+VA^{-1}U)^{-1VA^{-1}}\)
推导略
结论-方差
\(\phi(x^*)^T\Sigma_p\phi(x^*)-\phi(x^*)^T\Sigma_p\Phi^T(K+\sigma^2I)^{-1}\Phi \Sigma_p\phi(x^*)\)
最后有预测分布如下
\(f(x^*)|X,Y,x^* \sim \mathcal{N}(\sigma^{-2}\phi(x^*)^TA^{-1}\Phi^TY,\phi(x^*)^T\Sigma_p\phi(x^*)-\phi(x^*)^T\Sigma_p\Phi^T(K+\sigma^2I)^{-1}\Phi \Sigma_p\phi(x^*)\)
\(K=\Phi \Sigma_p \Phi^T\) 是正定核
这里建立了,高斯过程,核函数,贝叶斯回归之间的关系
由核函数就可以直接定义贝叶斯回归
不同的视角看贝叶斯回归
贝叶斯回归可以从两个角度观察
1.weight-space view 权空间视角
\(f(x)=\phi^T(x)w\)
2.function-space view 函数空间视角
\(y=f(x)+\epsilon\)
\(GP(m(t),k(s,t))\)证明,为什么GP能由这两个函数m,k来表达
高斯过程存在性定理,略
贝叶斯方法推导核函数
- 从贝叶斯派的角度推导,直接推导后验的均值和方差
\(给定先验w\sim \mathbb{N}(0,\Sigma_p)\)
\(因为有f(x)=\phi(x)^Tw\)
\(所以\mathbb{E}[f(x)]=\mathbb{E}[\phi(x)^Tw]=\phi(x)^TE[w]=0\)
\(\forall x,x’\in \mathbb{R}^{p}\)
\(cov(f(x),f(x’))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])]\mathbb{E}[(f(x’)-\mathbb{E}[f(x’)])]\)
\(=\mathbb{E}[f(x)\cdot f(x’)]\)
\(=\mathbb{E}[\phi(x)^T\cdot w\phi(x’)^Tw]\)
\(=\mathbb{E}[\phi(x)^Tw\cdot w^T\phi(x’)]\)
\(=\phi(x)^T\mathbb{E}[ww^T]\phi(x’)\)
\(=\phi(x)^T\Sigma_p\phi(x’)-kernel 函数\)
\(因为\mathbb{E}[ww^T]=\mathbb{E}[(w-0)(w^T-0)]=cov(w)=\Sigma_p\)
核贝叶斯回归的计算过程
预测分布
对于数据集来说,取 \(f(X)\sim\mathcal{N}(\mu(X),k(X,X)),Y=f(X)+\varepsilon\sim\mathcal{N}(\mu(X),k(X,X)+\sigma^2\mathbb{I})\)。预测任务的目的是给定一个新数据序列 \(X^*=(x_1^*,\cdots,x_M^*)^T\),得到 \(Y^*=f(X^*)+\varepsilon\)。我们可以写出:
根据高斯分布的方法:
可以直接写出:
所以对于 \(Y=f(X^*)+\varepsilon\):
我们看到,函数空间的观点更加简单易于求解。