机器学习基础---线性回归

一:线性回归(了解监督学习过程)

(一)概念

线性回归,首先要介绍一下机器学习中的两个常见的问题:回归任务和分类任务。那什么是回归任务和分类任务呢?简单的来说,在监督学习中(也就是有标签的数据中),标签值为连续值时是回归任务,标签值是离散值时是分类任务。

线性回归模型就是处理回归任务的最基础的模型

线性回归模型试图学得一个线性模型以尽可能准确地预测实值X的输出标记Y。
在这个模型中,因变量Y是连续的,自变量X可以是连续或离散的。

(二)字母含义

m-训练集样本的数量;

x-输入变量/特征;

y-输出变量/要预测的目标变量;

(x,y)-表示一个训练样本;

中i上标:表示第i个训练样本,即表示表格中的第i行;

 表示特征向量,n表示特征向量的个数;

 称为假设函数,h是一个引导从x得到y的函数;

(三)举例说明---可贷款的金额与工资和房屋面积之间的关系

输入数据:

输出目标:

预测银行会贷款多少钱(标签)

补充:由于各列数据差距过大,可能需要进行特征归一化处理。

数据的标准化(通过将各个数值保持在0-1之间:(X-X平均值)/(Xmax-Xmin)进行归一化)

有时不同特征之间数组的绝对值差距比较大。10000+,0.000+导致数值较大的将数值较小的特征掩盖掉,并且会影响算法收敛的速度。

 

那么根据线性函数可得到以下公式:

上面的这个式子是当一个模型只有两个特征(x1,x2)的时候的线性回归式子。正常情况下,现金贷中可贷款的额度和用户的很多特征相关联,并不只是简单的这两个特征。所以我们需要把这个式子进行通用化,假如有n个特征的话,那么式子就会变成下面的样子:

注意:列表示特征---x_0,x_1,x_2,...,x_n。可以组成n元函数。行就代表特征取值,是自变量。h_θ(x)就是一个n元函数,其数据点既是行数据。

即:

如何是使得模型效果最好,即找到最优的θ_1,θ_2使得我们预测的输出值,与原来的标签值之间的方差最小:

从上述获取代价函数:代价函数也被称为平方误差函数

二:代价函数

从一中获取下列信息:假设函数、参数、损失函数、优化目标

(一)简化假设函数,进行了解代价函数

训练集(1,1),(2,2),(3,3)

1.当 θ_1=1时,获取代价函数值J(θ_1)

2.当θ_1=0.5时,获取代价函数值J(θ_1)

3.当θ_1=0时,获取代价函数值J(θ_1)

4.当θ_1=...时,获取代价函数值J(θ_1)

学习算法的优化目标:是我们通过选择θ_1的值,获取最小的J(θ_1)

这就是线性回归的目标函数。

在该例中,当θ_1取1时,获取的J(θ_1)值最小,查看h(θ_1),这是一条最好的符合数据的直线,已经完美拟合。(通过找到一个θ_1,使得J(θ_1)值最小,从而找到一条最符合数据的直线)

(二)原始假设函数(含θ_0,θ_1)

1.设置θ_0=50,θ_1=0.06

(三)补充---为什么使用2m作为分母

三:梯度下降法----将代价函数J最小化

我们希望能够找到曲线拟合效果最好的线条,这样的线条的误差最小,所以就转化成了下面这幅图所表达的内容。

我们有一些函数,这些函数会有n个参数,我们希望能得到这个函数的最小值,为了方便计算,我们从最简单的入手,让参数的个数仅有两个。

对于这个函数,我们会给定初始的参数θ0和θ1,不断改变他们的值,从而改变函数值,直到我们找到我们希望的函数的最小值。

所以,我们引入梯度下降算法。用梯度下降法最小化任意函数J。 

(一)什么是梯度

在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。

比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。

对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0)。

如果是3个参数的向量梯度,就是(∂f/∂x, ∂f/∂y,∂f/∂z)T,以此类推。

(二) 那么这个梯度向量求出来有什么意义呢?

他的意义从几何意义上讲,就是函数变化增加最快的地方。

具体来说,对于函数f(x,y),在点(x0,y0),沿着梯度向量的方向就是(∂f/∂x0, ∂f/∂y0)T的方向是f(x,y)增加最快的地方。

或者说,沿着梯度向量的方向,更加容易找到函数的最大值。

反过来说,沿着梯度向量相反的方向,也就是 -(∂f/∂x0, ∂f/∂y0)T的方向,梯度减少最快,也就是更加容易找到函数的最小值。

(三)梯度上升与梯度下降

  在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数,和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。

        梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数f(θ)的最小值,这时我们需要用梯度下降法来迭代求解。但是实际上,我们可以反过来求解损失函数 -f(θ)的最大值,这时梯度上升法就派上用场了。

(四)案例讲解

 

上图,可以看做两座高山,我们希望能以最快的速度下山,那我们每一步需要朝向什么方向呢?

假设我们从图上“+”位置开始下山,我们假定第二幅图中的方向就是下山最快的方向,那达到第二个位置的时候,相当于处在一个新起点,我们会照着第一步的方法,再选择一个新的我们认为最好的方向走第二步,如下面第三幅图所示。我们照着这种方式,一步一步走下去,直到山脚。

也就是在图中,不管从哪个位置开始,每走到一个位置,就需要判断,找到最好的位置走第二步。而这种找最好位置的方法就是梯度下降算法。

因为走到的是局部最低点,不是整体最低点,所以梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。而且,相近的起点,可能最终的结果也有很大差别。比如上图,虽然起点与上面情况起点相差很少,但是通过下降梯度算法,最终的位置却到了另外一个局部最低点。

(五)梯度下降算法定义

上面这个公式就是梯度下降的算法,那这个算法表达的是什么含义呢?

首先,给出所有的符号的定义,便于大家理解:

       :=   :  这个符号是赋值符号;

       =    : 这个符号是等于符号;

       α    : 这个符号是下降速率(learning rate),即步长>0,它控制我们用多大的幅度来更新θj。例如在下山的例子中,它控制下山的速率;

注意:下面两种公式对比(正确/错误)

 

区别在于,前面的θ0和θ1是同时更新的,然后在做迭代,而后面的是先求出θ0,然后求θ1。

梯度下降,必须要同步更新;不同步更新,不是梯度下降算法。

(六)梯度下降算法步长和导数项初步了解

简化一下,假设只有一个参数θ1,并且假设图像如下图所示:

从图像看出最低点的位置,计算机怎么更加精确地找到呢?

1.假设θ1从最低点的右侧开始对图像进行初始化,函数的导数大于0,α是速率,大于0,这个时候,新的θ1小于上一个θ1。

2.假设θ1从最低点的左侧开始对图像进行初始化,函数的导数小于0,α是速率,大于0,这个时候,新的θ1大于上一个θ1。

(七)梯度下降算法步长α

因为α的值没有限制,所以在取值时要注意。

1.如果α的值过小,下降速率会很慢,就像下图一样。需要很多步才能到达最低点

2.如果α的值太大,就会出现下图的情况,最后无法收敛,甚至发散,离最小值越来越远。

(八)梯度下降算法案例

我们从图上的θ1点(图中最右上角的点)开始做梯度下降。当α的值比较恰当(不会过大或过小),会得到下图,第一次做梯度下降时,函数图像比较陡,导数值比较大,下降的比较快。

第二次做梯度下降时,图像较第一次更加平缓,导数值变小,下降速度变慢,继续做梯度下降,直到收敛到最低点,最终得到最优解。

四:梯度下降和代价函数---得到线性回归算法

将梯度下降法,应用到线性回归中求取最小化平方误差代价函数。

(一)推导结果

 

当x_0=1时,两个式子可以合并

反复执行括号里的式子,直到收敛到最小值,Θ0和Θ1不断的更新。都是加上一个-α/m 乘以后面的求和项。所以这就是我们的线性回归算法。

(二)梯度下降问题----局部最优

普通代价函数的图形如下:可能出现多个局部最优解

而线性回归的代价函数总是这样一个弓形函数(凸函数),只有一个全局最优值,没有局部最优解。只要我们是使用线性回归,当计算这种代价函数的梯度下降,他总会收敛到全局最优。

结果演示:

(三)梯度下降算法(Batch梯度下降算法)

意味着每一步梯度下降,我们都遍历了整个训练集的样本

在计算梯度中,当计算偏导数时,我们计算m个训练样本总和。因此Batch梯度下降算法指的是,当看着全部训练集时,进行计算。

 

posted @ 2020-04-27 13:08  山上有风景  阅读(703)  评论(0编辑  收藏  举报