代码改变世界

线性回归

2023-01-05 00:18  张紫荣  阅读(196)  评论(0编辑  收藏  举报
Linear Regression 利用线性的方法,模拟因变量与一个或多个自变量之间的关系. 对于模型而言,自变量是输入值,因变量是模1型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景.
回归的目的是预测数组型的目标值.
线性回归:
根据已民知的数据集,通过梯度下降的方法来训练线性回归参数w, 从而用线性回归模型来预测数据的未知的类别
应用于数据分析的场景主要有两种:
  • 驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对困变量驱动力的强弱.
  • 预测: 自变量与因变量呈线性关系的预测.
当自变量为1个时,是一元线性回归,又称作简单线性回归; 自变量为2个及以上时,称为多元线性回归.
线性回归模型:
f(x) = wx+b
目的:找到w, 使和 f(x1)尽可能的接近于y1
均方误差:
损失函数, 均方误差最小化目标函数的方法称为最小二乘法.在线性回归中,就是找到一个直线,使得所有样本到直线的欧式距离最小.
在计算过程中, 通常使用梯度下降的方式实现, 也可以求解均方误差为0的公式,计算最优w的解.
局部加权线性回归: Locally Weighted Linear Regression)
在该算法中, 我们给待预测点附近的每个点赋予一个权重, 在这个子集上基于最小均方差来进行普通的回归.
 
线性回归优缺点:
  • 结果易于理解,计算不复杂
  • 对非线性的数据拟合不好,不能处理非线性模型
  • 对异常值非常敏感
使用场景:
  根据已知的变量(即自变量)来预测某个数值变更(即因变量)
  适用于低维, 而且每一维之间都没有共线性
 
sklearn.linear_model.Linearression()