线性回归分析步骤总结
一、前期准备
1.研究目的
线性回归分析研究影响关系情况,回归分析实质上就是研究X(自变量)对Y(因变量,定量数据)的影响关系情况。当自变量为1个时,是一元线性回归,又称作简单线性回归;自变量为2个及以上时,称为多元线性回归。线性回归广泛的应用于自然科学、社会科学等各个领域中。例如:研究吸烟、肥胖、运动等因素是否影响高血压发病率;土壤、水分、光照是否影响植物生长等。
2.数据类型
线性回归要求因变量Y(被解释变量)一定是定量数据。如果因变量Y为定类数据,可以用“进阶方法”中的“logit回归”。
3.分析要求
(1)一般对于分析项的自变量个数没有要求,但是一般建议不要一次性放入太多,过多容易引起多重共线性,如果需要对哑变量进行处理,需要在SPSSAU“数据处理”中的“生成变量”,可以查看:SPSSAU哑变量帮助手册
(2)正态性检验
SPSSAU提供多种正态性检验的方法,例如:“通用方法”中的“正态性检验”(SPSSAU正态性检验);“可视化”中的“直方图”; “可视化”中的“P-P/Q-Q图"。
理论上要求线性回归中的因变量要满足“正态性”,但是若数据为问卷数据,建议可跳过正态性检验这一步。原因在于问卷数据属于等级数据,很难保证正态性,且数据本身变化幅度就不大,即使对数处理效果也不明显。
(3)线性趋势
线性回归模型要求自变量和因变量是呈线性关系的,可以通过SPSSAU中“可视化”中的“散点图”进行查看。如果不成线线性可以使用SPSSAU中的曲线回归。
补充说明:相关分析和回归分析
一般来说,回归分析之前需要做相关分析,原因在于相关分析可以先了解是否有关系,回归分析是研究有没有影响关系,有相关关系但并不一定有回归影响关系。
二、SPSSAU上传数据
1.上传数据
登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。
2.拖拽分析项
在“通用方法”模块中选择“线性回归”方法,将Y定量数据放于上方分析框内,X自变量放于下方分析框内,点击“开始分析”即可。
补充说明:如果想一次拖拽多个分析项,则可以使用ctrl键不连续多选,shift键连续多选;左右拖拽。
3.选择参数
勾选后可以将残差和预测值保存起来,可用于进—步分析使用。
三、SPSSAU分析
背景:分析员工当前工资影响因素(数据已满足线性回归分析要求参考来源:SPSS统计分析第5版)。
1.线性回归分析结果
从上表可以看出,模型公式为:当前工资=-338.130 + 1.750*起始工资 + 710.927*受教育程度(年)-10.009*过去经验(月)-77.206*年龄,模型R方值为0.803,意味着起始工资,受教育程度(年),过去经验(月),年龄可以解释当前工资的80.3%变化原因。
对模型进行F检验时发现模型通过F检验(F=476.677,p=0.000<0.05),也即说明起始工资,受教育程度(年),过去经验(月),年龄中至少一项会对当前工资产生影响关系,另外,针对模型的多重共线性进行检验发现,模型中VIF值全部均小于5,意味着不存在着共线性问题;并且D-W值在数字2附近,因而说明模型不存在自相关性,样本数据之间并没有关联关系,模型较好。
具体分析:
(1)起始工资的回归系数值为1.750(t=29.259,p=0.000<0.01),意味着起始工资会对当前工资产生显著的正向影响关系。
(2)受教育程度(年)的回归系数值为710.927(t=4.190,p=0.000<0.01),意味着受教育程度(年)会对当前工资产生显著的正向影响关系。
(3)过去经验(月)的回归系数值为-10.009(t=-1.762,p=0.079>0.05),意味着过去经验(月)并不会对当前工资产生影响关系。
(4)年龄的回归系数值为-77.206(t=-1.535,p=0.126>0.05),意味着年龄并不会对当前工资产生影响关系。
补充说明如下:
(1)如果出现多重共线性问题,一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析。
(2)D-W值常用于检验序列一阶自相关,一般不用考虑。
2.模型预测
SPSSAU提供模型预测,输入自变量X后就会得到相应的因变量Y,例如:假设某员工“起始工资”为3000,“受教育程度”10年,过去经验为12个月,年龄为25,则通过模型预测出当前工资约为9971元(数据结果仅供案例分析)。
3.模型结果图
可以直观的看到自变量与因变量的之间的关系(基于回归系数基础上)。
4.模型汇总
从上表可知,将起始工资,受教育程度(年),过去经验(月),年龄作为自变量,而将当前工资作为因变量进行线性回归分析,从上表可以看出,模型R方值为0.803,意味着起始工资,受教育程度(年),过去经验(月),年龄可以解释当前工资的80.3%变化原因。
5.ANOVA表格分析
对模型进行F检验时发现模型通过F检验(F=476.677,p=0.000<0.05),也即说明起始工资,受教育程度(年),过去经验(月),年龄中至少一项会对当前工资产生影响关系。
6.回归系数分析
总结分析可知:起始工资, 受教育程度(年)会对当前工资产生显著的正向影响关系。但是过去经验(月), 年龄并不会对当前工资产生影响关系。
PS:此外SPSSAU还提供了coefPlot
coefPlot展示具体的回归系数值和对应的置信区间,可直观查看数据的显著性情况,如果说置信区间包括数字0则说明该项不显著,如果置信区间不包括数字0则说明该项呈现出显著性。
四、常见问题说明
- 多个问卷量表题如何表示一个维度?
比如有两个题“我愿意向朋友推荐SPSSAU”,“我有需要会再来使用SPSSAU”,此两个题是“忠诚度”的体现。但现在需要“忠诚度”这个整体,而不是具体两个标题,
具体操作如下图:
2.多重共线性问题?
VIF值用于检测共线性问题,一般VIF值小于10即说明没有共线性(严格的标准是5),有时候会以容差值作为标准,容差值=1/VIF,所以容差值大于0.1则说明没有共线性(严格是大于0.2),VIF和容差值有逻辑对应关系,因此二选一即可,一般描述VIF值。
如果出现多重共线性问题,一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析。
3.控制变量如何放置?
控制变量指可能干扰模型的项,比如年龄,学历等基础信息。从软件角度来看,并没有“控制变量”这样的名词。“控制变量”就是自变量,所以直接放入“自变量X”框中即可。
4.线性回归有效样本量不足,需要多少样本量?
有效样本不足是指分析时,可以进行分析的样本量低于方法需要的样本量。解决方法是加大样本量。一般来说,至少要求样本量起码是变量数的5-10倍,结果更具备参考意义。
5.回归结果看标准化还是非标准化?
标准化回归系数是消除了量纲影响后的回归系数,可以用来比较各个自变量的“重要性大小”。如果目的在于预测模型,一般使用非标准化回归系数。
五、总结
线性回归分析步骤总结如下:
第一步:首先对模型情况进行分析包括模型拟合情况(比如R ²为0.3,则说明所有X可以解释Y 30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系)。
第二步:分析X的显著性如果显著(p 值判断),则说明具有影响关系,反之无影响关系。
第三步:判断X对Y的影响关系方向回归系数B值大于0说明正向影响,反之负向影响。
第四步:其它比如对比影响程度大小(回归系数B值大小对比X对Y的影响程度大小)。
以上就是本次分享的内容,登录SPSSAU官网了解更多。