PRML-Chapter3 Linear Models for Regression
Example: Polynomial Curve Fitting
The goal of regression is to predict the value of one or more continuous target variables
t given the value of aD -dimensional vectorx of input variables.
什么是线性回归?线性回归的目标就是要根据特征空间是
We can obtain a much more useful class of functions by taking linear combinations of a fixed set of nonlinear functions of the input variables, known as basis functions. Such models are linear functions of the parameters, which gives them simple analytical properties, and yet can be nonlinear with respect to the input variables.
这个多项式拟合的例子并不是用一条直线进行回归,这个例子为什么是线性回归呢?这里说的线性是指预测函数
在这个例子中,绿色的曲线是产生数据真正的
Talor Expansion
有人会想,为什么我们可以用多项式进行拟合?这时候我们可以借助泰勒展开定理。
若函数
f(x) 在点a的某一领域内具有(n+1)阶导数,则在该领域内f(x) 的n阶泰勒公式为:
其中,当a=0时为泰勒公式的特例,麦克劳林展开
特别地,当
也就是说,
Common Basis Functions
更一般地形式
where
Polynomial basis functions
Gaussian basis functions
Sigmoid basis functions
where
Objectives and Results
我们的目标是预测值(绿色的点)与训练样本的值(蓝色的点)之间的误差尽量小,采用的损失函数是平方损失函数。
Maximum likelihood and least squares
假设我们的目标变量
其中,
在给定一个输入
根据训练样本
两边取log
其中
极大化似然函数等价于极小化损失函数。在噪声服从均值为0的高斯分布情况下,MLE与Least Square等价
Calculate Parameter
通过梯度下降进行求解
设置梯度为0
最后化简,我们可以得到
特别地,当两个或两个以上的列向量相关性明显的话,
Geometry of least square
这里假设我们的样本大小N=3,特征M=2,
每个样本的特征空间是2维,其中第一列(1,0,0)我们可以看成是一个特征维度(比如x轴),三维空间中的一个点或者向量,对应下图的
Regularized Least Squares
Over-fitting的问题可以通过在损失函数中加入正则项(参数的惩罚)
其中
参数w的解变为
更一般的形式
这个问题可以转换为带约束的凸优化问题,我们可以基于约束条件,构造拉格朗日函数。
上图左边为Ridge,右边为Lasso,这就是为什么Lasso能够参数稀疏解,进行特征选择。
---
#
期望的损失函数
其中
Bias和Variance是一个trade-off的问题
Bayesian Linear Regression
参数w的先验概率分布
参数w的后验概率分布
其中
特别地,我们取
对参数w的后验概率分布取log
MAP与Regularized Least Square等价
Predictive distribution
Bayesian关注的不是参数的获取,而是预测
Equivalent Kernel
预测值可以写成
写成等价核的形式
其中
可以看出是训练样本的目标值的加权求和。我们可以不使用基函数(隐式定义了核),直接定义等价核,从而引出了高斯过程。
Bayesian Model Comparison
Bayesian可以帮助我们做模型选择
其中Model Evidence是
我们需要选择那个Model Evidence最大的模型
Bayes factor
取log
多个参数w的情况下
从这个图中,我们可以看出,简单模型可以产生的数据D比较单一,而复杂模型可以产生比较复杂多样数据,但是分配到这些数据D的概率比较低,也就是复杂模型的Model Evidence较低,适中的模型复杂度有较高的Model Evidence,而简单模型虽然有较高的Model Evidence,但是其拟合能力差。
Bayesian Framework Summary
- 可以避免过拟合
- 需要对模型进行假设,也就是选择合适的先验,不合理的先验会导致一些问题(例如高斯先验的方差如果取无限大的话,无法对参数w进行积分)