线性回归—监督学习

 

 

1、线性回归的可行行基础及数据形式

经过证明的二元分类的VC bound可以用在其他的模型上,也可以使用在线性回归上;

 输入数据都是带着标称的数据{x, y};其中x时特征向量,y为结果;

 

2、线性回归解决的问题

相比与前面的感知机模型输出空间为一个二元的分类空间,线性回归输出空间是全体实数,以银行审评信用卡为例:

在感知机模型中,输出结果是{通过, 不通过};

在线性回归中输出结果就是{x, x属于全体实数};

3、线性回归的hypothesis

相比与感知机模型在使用权重乘以个特征的值之后得到结果后进行符号判断,来输出二元分类的结果,线性回归不需要在进行二元分类,直接输出最后得到的结果就可以;

相同的是,在计算权重与特征值时,感知机需要使用门限,线性回归使用偏置

 

4、hypothesis评价标准(cost function)

residual:余数,在这里表示错误,就是红色部分的线段长度;

当输入数据是一维空间时,线性回归的目标函数是二维空间上的一条线,二维特征向量时,则为一个面;评价标准可以参照感知机模型中的表示,就是使用各点到线或者面的距离来进行衡量:当距离之和为0时,那么所有的点都在点或者面上,此时error为0,反之距离越大,落在线或者面上的点就越少,error就越大;

以上都是我的观点,一般的衡量标准如下:

采用平方误差模型,学习的结果与真实的结果差的平方然后求统计平均;

 

5、怎么学习?最小化erro

Ein的两个决定因素:W和y,其中y已知;

将求和变成了向量之间的距离,向量的模值;

error函数性质:

 1):连续可微,且是一个凸函数,极小值必然存在

 2):当函数梯度为0时,表示不能函数值不能再下降,此时error有最小值

结合上面的两条性质,学习的目的就是找到一个W使得error函数的梯度为0;

梯度表达式的出后:

假如x*xT可逆,那么可以直接进行计算且只有唯一解:

当不可逆时,会有多组解,使用虚假反矩阵计算WLIN

当某个平台已经实现好了使用虚假反矩阵的算法时,比较好的建议是直接使用该方法进行计算WLIN

好处:避免了再去判断(XT*X)是否可逆;

6、 线性回归处理过程

  1、整理数据,整理出输入矩阵X和输出矩阵Y,输入矩阵X为N个数据实例,每个实例具有d个特征向量:

   

  2、计算虚假反矩阵

  

  3、计算WLIN

  

 

 7、 线性回归为什么是一个机器学习的算法?

  使用虚假反矩阵计算线性回归时:

  1、按照分析过程直接求解;

  2、并没有通过迭代的方式逐步提升EIN和EOUT

  

  但是,在计算虚假反矩阵的时候,内部算法是满足以上的条件的;

  

 

posted @ 2017-01-16 16:00  罐装可乐  阅读(666)  评论(0编辑  收藏  举报