Kernel Ridge Regression

大部分笔记已经转移到 https://github.com/hschen0712/machine_learning_notes ，QQ：357033150，欢迎交流

回顾一下岭回归，岭回归的目的是学习得到特征和因变量之间的映射关系，由于特征可能很高维，所以需要正则化

岭回归的目标函数是

$$ \sum_{i=1}^n \left\|y-X\beta\right\|^2+\lambda\beta^T\beta $$

由于数据可能是非线性的，单纯的线性回归效果可能不是很好，因此可以把数据映射到一个核空间，使得数据在这个核空间里面线性可分。

设核函数为$\Phi_i=\Phi(x_i)$，$\Phi_i$是一个$d$维空间中的向量，通常$d$比原来的维数高，甚至可以到无穷维。可以认为$\Phi_i$是核空间中$x_i$的一组特征，我们在核空间里对这组特征进行线性回归，原理和岭回归是一样的，因此可以直接套用岭回归的目标函数

$$ \sum_{i=1}^n \left\|y-\Phi\beta\right\|^2+\lambda\beta^T\beta $$

由正规方程解得$\beta=(\Phi^T\Phi+\lambda I_d)^{-1}\Phi^Ty$

由于$\Phi_i$可能达到无穷维，直接求逆比较困难，且效率较低。因此需要用到下面的小技巧

$$ (P^{-1}+B^TR^{-1}B)^{-1}B^TR^{-1}=PB^T(BPB^T+R)^{-1}$$

上式中，令$B=\Phi,P=\frac{1}{\lambda}I_d,R=I_n$，则有

$$\begin{align*} \beta &= \frac{1}{\lambda}\Phi^T(\frac{1}{\lambda}\Phi\Phi^T+I_n)^{-1}y\\&=\frac{1}{\lambda}\Phi(\frac{1}{\lambda}[\Phi\Phi^T+\lambda I_n])^{-1}y\\&=\frac{1}{\lambda}\Phi^T(\frac{1}{\lambda})^{-1}(\Phi\Phi^T+\lambda I_n)^{-1}y\\&=\Phi^T(\Phi\Phi^T+\lambda I_n)^{-1}y \end{align*}$$

令$\alpha=(\Phi\Phi^T+\lambda I_n)^{-1}y\quad\in\mathbb{R}^{n\times 1}$，则$\beta=\Phi^T\alpha=[\Phi_1,\Phi_2,...,\Phi_n]\alpha=\sum_{i=1}^n \alpha_i\Phi_i$

$K=\Phi\Phi^T\in\mathbb{R}^{n\times n}$称为gram矩阵，且$K_{ij}=\Phi_i^T\Phi_j$。

$$ y_i=\beta^T\Phi_i=y^T(K+\lambda I_n)^{-1}\Phi\Phi_i = y^T(K+\lambda I_n)^{-1}K_i $$

其中$K_i$是$K$的第$i$列

posted on 2014-05-25 21:59 Hiroki 阅读(2845) 评论(0) 编辑收藏举报

刷新页面返回顶部

Hiroki

Kernel Ridge Regression

导航

公告