回归分析
基本概念
变量之间的非严格函数关系: 变量x、y之间存在某种密切的联系,但并非严格的函数关系(非确定性关系)。
回归: 回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述。
线性和非线性: 线性(Linear)的严格定义是一种映射关系,其映射关系满足可加性和齐次性。通俗来讲就是两个变量存在一次方函数关系,在平面坐标系中表现为一条直线。不满足线性即为非线性(non-linear)。
线性回归(Linear Regression): 在回归分析中,如果自变量和因变量之间存在着线性关系,则被称作线性回归。如果只有一个因变量和一个自变量,则被称作一元线性回归,如果有一个因变量和多个自变量,则被称作多元回归。
回归模型的基本前置假设
零均值:随机误差项均值为0,保证未考虑的因素对被解释变量没有系统性的影响。
同方差:随机误差项方差相同,在给定x的情况下,随机误差的条件方差为某个常数。
无自相关:两个随机误差之间不相关。
正态分布:随机误差符合正态分布。
解释变量x1、x2、x3、… 、xn是非随机变量,其观测值是常数。
解释变量之间不存在精确的线性关系。
样本个数要多于解释变量的个数。
建立回归模型的流程
需求分析,明确变量
了解相关需求,明确场景,清楚需要解释的指标(因变量),并根据相关业务知识选取与之有关的变量作为解释变量(自变量)。
数据收集加工
根据上一步分析得到的解释变量,去收集相关的数据(时序数据、截面数据等),对得到的数据进行清洗、加工,并根据数据情况调整解释变量,并判断是否满足基本假设。
确定回归模型
了解数据集,使用绘图工具绘制变量样本散点图或使用其他分析工具分析变量的关系,根据结果选择回归模型,如:线性回归模型、指数形式的回归模型等。
模型参数估计
模型确定后,基于收集、整理的样本数据,估计模型中的相关参数。最常用的方法是最小二乘法(最小平方法),在不满足基本假设的情况下还会采取岭回归、主成分回归、偏最小二乘法等。
最小二乘法:也叫最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配的方法。
模型检验优化
参数确定后,得到模型。此时需要对模型进行统计意义上的检验,包括对回归方程的显著性检验、回归系数的显著性检验、拟合优度检验、异方差检验、多重共线性检验等。还需要结合实际场景,判断该模型是否具有实际意义。
模型部署应用
模型检验通过后,可以使用模型进行相关的分析、应用,包括因素分析、控制、预测等。
变量关系:确定几个特定变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式。
因素分析:回归模型对解释变量和被解释变量之间的关系进行了度量,从各个解释变量的系数可以发现各因素对最终结果的影响大小。
控制:给定被解释变量的值,根据模型来控制解释变量的值。
预测:根据回归模型,可以基于已知的一个或多个变量预测另一个变量的取值,并可以了解这个取值精确到什么程度。
总结:首先确定要进行的预测的因变量,然后集中于说明变量,进行多元回归分析。多元回归分析将给出因变量与说明变量当之间的关系、这一关系最后以公式(模型)形式给出,通过他预测因变量的未来值。
回归分析可以分为线性回归分析和逻辑回归分析
线性回归
简单线性回归
线性回归中,如果只有一个自变量和因变量,且关系大致上可以用一条直线表示,称之为简单线性回归分析
如果自变量和因变量存在高度正相关,则是一条直线方程,使得所有数据点尽可能接触这条拟合的直线,该模型可以用以下方程表示:
Y = a + bX
多元线性回归分析
只是简单线性回归的推广,指的是多个因变量对多个自变量的回归分析。最常见的是只限于一个因变量但是有多个自变量的情况,也叫多重回归分析。
多重回归分析的一般形式如下:
Y = a + b1X1 + …… + bnXn
非线性回归分析
对于线性回归分析,变量间的关系呈曲线关系,无法用线性函数表示自变量和因变量之间的关系,而需要用非线性函数表示。
数据挖掘中经常使用的一些非线性回归模型列出如下:
渐进线性回归模型: 我不会写公式,所以这里先空着(ΘдΘ;)
二次曲线模型: 同上
双曲线模型: 还是同上……
因为许多非线性模型是等价的,所以模型的参数化不唯一,这导致非线性模型的拟合和解释相比线性模型复杂得多,因此,需要有方法来估算回归参数,在线性回归分析中估算回归方式的最通用的方法就是最小二乘法。
接下来,给出例子分别实现一元和多元线性回归:
实现一元线性回归
这个星期事情太多了还没做完……
(ΘдΘ;)
实现多元线性回归
这个星期事情太多了还是没做完………………
(ಥ_ಥ)
逻辑回归
在补了在补了!!!孩子这个星期抄报告快抄傻了……
o(╥﹏╥)o
损失函数
损失函数是一个贯穿整个机器学习重要的一个概念,大部分机器学习算法都会有误差,我们得通过显性的公式来描述这个误差,并且将这个误差优化到最小值。
对于线性回归模型,将模型与数据点之间的距离差之和做为衡量匹配好坏的标准,误差越小,匹配程度越大。我们要找的模型就是需要将f(x)和我们的真实值之间最相似的状态。
梯度下降算法
回归模型的特点
回归模型在很多领域都有广泛的应用,具有以下优点:
模型简单,建模和应用都比较容易
有坚实的统计理论支撑
定量分析各变量之间的关系
模型预测结果可以通过误差分析精确了解
存在的缺点:
假设条件比较多且相对严格
变量选择对模型影响较大
所以其实线性回归实际中不咋用到,因为条件非常苛刻,要求数据量大,关系非常明确,有明显的相性,而且模型本身也比较简单,但是蕴含了许多思想,适合用来做学习入门…………hehe