线性回归 Linear regression(3) 线性回归的概率解释

这篇博客从一种方式推导了Linear regression 线性回归的概率解释，内容来自Standford公开课machine learning中Andrew老师的讲解。

线性回归的概率解释

在Linear regression中我们人为的定义了，损失函数 $J(\theta )= \frac{1}{2}\sum_{i=1}^{m}(h_\theta (x)^{(i)}-y{(i)})^{2}$ ，然而我们并没有说明为什么我们会选择最小二乘作为我们的损失函数。

下面是一种概率解释：让我们回到一开始的式子来看一看，一开始我们定义线性回归方程 $y^{(i)}=\theta ^{T}x^{(i)}+\varepsilon^{(i)}$ ，其中 $\varepsilon^{(i)}$ 是我们的误差项，那么对于 $\varepsilon^{(i)}$ 我们假设它是独立同分布（IID）的高斯分布，即 $\varepsilon^{(i)}\sim N(0,\sigma ^2)$ （假设它为高斯分布，我们主要用了概率统计里的一个很重要的定理：中心极限定理），那么我们可以得到：

$p(\varepsilon ^{(i)})=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(\varepsilon ^{(i)})^2}{2\sigma ^2})$

将线性回归方程代入到我们得到：

$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma } exp(-\frac{(y^{i}-\theta ^Tx^{(i)})^2}{2\sigma ^2})$

从而我们可以得到我们的似然（likelihood）函数

$L(\theta )=L(\theta ;X,\vec{y})=p(\vec{y}|X;\theta )$

$L(\theta )=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta ) \\$

$L(\theta )=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})}{2\sigma ^2})$

我们要对我们的似然函数进行极大似然估计（MLE），一般情况下我们会把似然函数求对数，再进行极大似然估计，原因很简单，求对数之后单调性不变，函数本身的e也会没有，函数会变得比较简单。

所以log likelihood l(Θ):

$l(\theta )=logL(\theta)=\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})}{2\sigma ^2})$

$l(\theta )=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2$

$l(\theta )=c_1-c_2\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2$

至此，我们最大化似然函数l(Θ)，等价于最小化损失函数J(Θ)，这也说明了在我们的推导中，最后结果与我们假设的高斯分布的方差σ是没有关系的。

我们回过头来再考虑一下，我们假设了什么，我们假设误差项服从高斯分布，这个假设对于线性回归模型来说非常形象，其实我们一开始就假设了这个模型是一个线性模型，那么很自然的我们会考虑误差一定是离线性函数越近可能性越大，离线性函数越远可能性越小。所以在机器学习模型中，假设对于我们来说相当重要。

我的感受是：任何的机器学习算法都不能被称为一定是一个好的算法，只有当我们的假设符合数据本身的性质，我们的机器学习模型才能达到一个好的效果。

posted on 2015-04-03 23:59 samsons 阅读(873) 评论(0) 收藏举报

刷新页面返回顶部

Samsons

线性回归 Linear regression(3) 线性回归的概率解释

公告

导航