机器学习之线性回归
人工智能定义
什么是机器学习
基于大量的数据,总结出用于预测和判断的模型
什么是学习
针对回归、分类等问题,基于有准确答案的数据建立模型,调整模型参数直至输出期望值的过程就是学习
分类
根据所处理的数据类型,可以将其分为监督学习、无监督学习和强化学习三类
比较
监督学习 |
非监督学习 |
半监督学习 |
强化学习 |
|
定义 |
是从大量的问题和准确答案中总结出解决方法的学习 |
训练数据未标注正确的结果 | 训练数据标注了少量正确的结果 |
根据胜负给予报酬。以报酬为依据,形成了学习到达终局时所用招数的优缺点的框架 |
常用算法 | 线性回归,逻辑回归,决策树,深度学习 | 聚类 | ||
举例 |
目的是“从大量的数据中找出对人类有用的知识”。例如,电商平台根据个人购买记录向你推荐商品的功能,以及根据机器的动作信息推测异常情况的功能等 |
回归
举个例子,预测一下市政府举办的宣传活动的参加人数根据活动中用来招待参加者的水果、果汁的量,就可准确预测参加人数了
线性回归
定义
有些解释变量对响应变量的影响大,有些对响应变量的影响小,情况很复杂。将每个解释变量乘以其重要性即权重,然后求和,便得到了响应变量。这种变量与因变量存在线性关系的回归方法被称为线性回归
这个公式表示的是三维空间中的平面。要想预测参加人数,就要找出逼近这个三维空间中所有点的平面。
如果有 d 个解释变量,就要找出逼近 d+1 维空间中所有点的 d 维超平面
目标是找到合理的系数
使用方法
估算值要求最小
要想让所有数据都逼近该回归函数,那么将解释变量的值代入 x 求得的回归函数的值cˆ(x) 和响应变量 y 的差值应该尽可能小。最终目标是使求得的所有数据相对于响应变量 y 的差值都尽可能小。但是,对于一个数据集,响应变量值存在大于或小于回归函数的输出的情况,差值在相加时就互相抵消了。
均方误差
定义:回归函数的输出cˆ(x ) 与响应变量 y 之差的平方和为回归函数的损失
最小二乘法
采用最小二乘法学习调整回归函数权重,可以最小化值均方误差
求极值点
梯度下降法
模型的输出是权重 w 的函数,改变 w 时误差也会变化。对此,可以通过最陡梯度法寻求解决方案。最陡梯度法是将参数一点一点地向想要最小化的函数的梯度方向移动,然后收敛到最优解的方法。在这种情况下,参数 w 会朝误差E(w)的梯度方向一点点移动。如果用学习率 η 表示这个“一点点”的量,则最陡梯度法的权重更新可表达为下式 :
举例
区别
总结:回归问题
sklearn函数调用线性回归的方法
from sklearn.linear_model import LinearRegression
lr1 = LinearRegression() #创建一个学习实例
lr1.fit(X, y) #将特征向量集 X 和答案信息 y 作为参数,调用 fit 方法进行学习