线性回归与逻辑回归

线性回归

线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。

线性回归有很多实际用途。分为以下两大类:

  1. 如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
  2. 给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。

理论模型:

多变量线性回归模型表示为以下的形式:

一个简单线性回归拟合图像:

 

逻辑回归

用回归解决分类问题:

最简单的例子:一维回归

下图中X为数据点肿瘤的大小,Y为观测结果是否是恶性肿瘤。通过构建线性回归模型,如hθ(x)所示,构建线性回归模型后,我们设定一个阈值0.5,预测hθ(x)≥0.5的这些点为恶性肿瘤,而hθ(x)<0.5为良性肿瘤。

当数据为下图分布时,设定0.5,这个判定阈值就失效了,而现实生活的分类问题的数据,会比例子中这个更为复杂,而这个时候我们借助于线性回归+阈值的方式。

 

逻辑回归的逻辑函数()sigmoid:

逻辑函数图像:

sigmoid函数性质:

这个函数的性质,非常好的满足了,x的输入可以是负无穷到正无穷,而输出y总是[0,1],并且当x=0时,y的值为0.5,以一种概率的形式表示. x=0的时候y=0.5 这是决策边界。

假设t是一个只有一个一次方的线性方程:

这时逻辑回归函数可写成:

 

损失函数:

cost函数和J函数如下,它们是基于最大似然估计推导得到的。


 


 

下面详细说明推导的过程:

 

(1)式综合起来可以写成:

 

 

取似然函数为:

 


 

对数似然函数为:

 


 

最大似然估计就是求使取最大值时的θ,其实这里可以使用梯度上升法求解,求得的θ就是要求的最佳参数。但是,在Andrew Ng的课程中将取为下式,即:

 


 

因为乘了一个负的系数-1/m,所以取最小值时的θ为要求的最佳参数。

 

线性回归的目标函数:

Logistic回归的目标函数:

 

如何找到最优参数:

损失函数可以选取最小二乘法

用梯度下降求解最优参数

 

 模型评估

对于LR分类模型的评估,常用AUC来评估

 

 

 

 

 

posted @ 2016-01-26 10:09  xmeo  阅读(525)  评论(0编辑  收藏  举报