高斯分布

高斯过程是定义在y上的高斯分布。高斯过程与核函数紧密相连，定义在y上的高斯分布正是通过核函数表示出来的。与线性回归相比，高斯过程没有建立y和x的直接关系，而是通过核函数的方式直接建立y之间的关系。在线性回归模型中，我们假设某个y的取值服从一个高斯分布 $p(y) = N(y|w^T\phi(x),\sigma^2)$ ，即y的均值是参数w的一个线性关系， $y_m$ 和 $y_n$ 之间的关系通过w的协方差表现出来。如果给定一个先验 $p(w) = N(w|0, \beta^{-1}I)$ ,那么可以计算出y的协方差矩阵，如下：

$cov(y) = E(yy^T) = E(\Phi ww^T\Phi^T) \\= \Phi E(ww^T) \Phi^T = \Phi cov(w)\Phi^T = \beta^{-1}\Phi\Phi^T$ (1)

注意到上面的矩阵 $\Phi$ 是一个N×M的设计矩阵，矩阵的每一行 $\phi(x_n)^T$ 表示训练集中的一个特征向量，令 $\Phi\Phi^T = K$ ，是一个N×N的矩阵，K矩阵的第m行第n列的元素是 $\phi(x_m)^T\phi(x_n)$ 表示一个核函数。因此y的协方差矩阵可以通过核函数表示出来。那么什么是核函数呢？核函数是一个二元函数，定义为两个向量的内积：

$k(x_m, x_n) = \phi(x_m)^T\phi(x_n)$ 可以理解为两个点之间的相似关系。我们可以从核函数的角度重新理解线性回归。在线性回归中，我们认为 $y = w^T\phi(x)$ , $\phi(x)$ 是一个特征向量,用最小二乘法的损失函数如下所示：

$J(w) = \frac{1}{2}\sum_{n=1}^N(\phi(x_n)^Tw - t_n)^2 = \frac{1}{2}||\Phi w - t||^2$ (2)

对其进行求导，并令导数等于0,我们可以得到如下等式：

$w = -\frac{1}{\lambda}\sum_{n=1}^N{w^T\phi(x_n)-t_n} = \sum_{n=1}^Na_n\phi(x_n) = \Phi a$ (3)

其中： $a_n=-\frac{1}{\lambda}\{w^T\phi(x_n)-t_n\}$

现在我们将公式(3)代入线性模型，得到

$y = a^T\Phi\phi(x) = a^Tk(x)$ （4）

$k(x)$ 是一个核函数向量，它的每个元素 $k(x)_i = \phi(x_i)^T\phi(x)$ ，上述过程可以认为是由特征向量向核向量转化的过程，也可以看作一个新的特征向量。区别在于，原来的特征向量是一个有穷维的，而新的核向量是一个无穷维的。我们称公式(4)是原来线性模型的对偶形式，特点在于可以通过核函数的方法把y之间的关系表示出来，而没有引入额外的参数w，这种特性天然的和高斯过程联系在一起，高斯过程的优点也正在于我们可以定义各种各样的核函数表示y之间的协方差，而不必明确指定出x的特征向量。高斯过程摒弃了线性模型参数的思想，直接通过核函数建立y之间的关系，从一个有参模型过度到无参模型。

上面讨论了高斯过程的定义以及高斯过程中用到的核函数，如何用高斯过程进行回归呢。这就要利用高斯分布的特点。如何y是一个服从高斯分布的M维向量， $y_a$ 和 $y_b$ 分别是y的两部分，那么它们各自的边缘分布 $p(x_a)$ 和 $p(x_b)$ 也都是高斯分布，并且条件分布 $p(x_a|x_b)$ 也服从高斯分布。现在我们假设有N个训练集，并且要预测第N+1个数据x对于的y。我们的做法是，假设这N+1个数据服务高斯分布，并给定一个核函数，那么我们就可以计算出N+1个数据的协方差矩阵记作 $\Sigma_{N+1}$ 。并且将该矩阵分解为两部分