OLS回归案例分析
一、案例背景
研究高管信息以及企业规模资产对于研发投入的影响,其中高管信息包括,高管研究平均年龄、高管平均任期(天)、高管平均学历以及高管团队人数,具体的名词解释请参考下方表格,此案例主要利用SPSSAU回归分析高管信息以及企业规模资产对于研发投入的影响。并对结果进行解释,首先将搜集的数据进行处理。
二、数据处理
1.减少异方差
将数据进行对数处理,目的是将单位进行压缩,以减少在某些情况下,数据的整个值域中的在不同区间的差异带来的影响不同(特别注意:对数处理的数据应该大于0,如果小于等于0需要在excel中处理)。
2.异常值检查
在数据分析之前,首先需要进行数据查看,案例是问卷数据所以对于数据进行查看是否有异常值,常见的方法包括利用SPSSAU描述分析看数据是否正常,散点图以及箱线图。异常值的判断标准如下:
检验数据是否有异常值的方法:
异常值处理方法:
此案例对于异常值检查使用散点图:
由散点图可以看出横坐标代表企业规模资产,纵坐标代表研发投入,可以看出异常值是14.610,所以将数据进行筛选处理,处理如下:
处理后进行再次检查,可使用SPSSAU可视化的箱线图。
三、基本关系查看
数据处理后,我们切入正题,回归分析前需要进行基本关系查看,其中包括因变量与自变量的线性关系、相关关系以及因变量的正态性,接下来一一说明。
1.线性关系
做数据的散点图(由于数据过多,所以分析时利用SPSSAU提供的Bins处理,Bins=25),观察因变量与自变量之间是否具有线性特点。
从上图中可以看出,研发投入和高管平均年龄、高管平均任期、高管平均学历、高管团队人数以及企业规模资产存在线性关系,其中Y轴为因变量研发投入。X轴为自变量。
2.相关关系
相关分析是研究有没有关系,回归分析是研究影响关系。明显地,相关分析是基础,然后再进行回归分析。首先需要知道有没有相关关系;有了相关关系,才可能有回归影响关系;如果没有相关关系,是不应该有回归影响关系的。
从上图可以看出,研发投入(元)与高管平均年龄, 高管平均任期(天), 高管平均学历, 高管团队人数, 企业规模资产(元)共5项之间的相关关系系数值呈现出显著性,具体来看,研发投入(元)和高管平均年龄之间的相关系数值为-0.189,并且呈现出0.01水平的显著性,因而说明研发投入(元)和高管平均年龄之间有着显著的负相关关系。研发投入(元)和高管平均任期(天)之间的相关系数值为0.099,并且呈现出0.05水平的显著性,因而说明研发投入(元)和高管平均任期(天)之间有着显著的正相关关系。研发投入(元)和高管平均学历之间的相关系数值为0.266,并且呈现出0.01水平的显著性,因而说明研发投入(元)和高管平均学历之间有着显著的正相关关系。研发投入(元)和高管团队人数之间的相关系数值为0.236,并且呈现出0.01水平的显著性,因而说明研发投入(元)和高管团队人数之间有着显著的正相关关系。研发投入(元)和企业规模资产(元)之间的相关系数值为0.619,并且呈现出0.01水平的显著性,因而说明研发投入(元)和企业规模资产(元)之间有着显著的正相关关系。
3.正态性
横轴各坐标为各分组的起止范围;左边Y轴代表的是正态曲线的概率密度;右侧Y轴代表频率。从图中可以看出因变量研发投入呈正态分布。对于正态检验SPSSAU还提供了其它方法,比如P-P/Q-Q图、正态检验等。具体请参考
四、回归结果
通过基本关系查看可以发现因变量和自变量之间具有线性关系,以及对于相关关系也有说明,处理后的因变量符合正态性,对年份进行哑变量处理,特别说明哑变量处理后在分析时要少放一项作为参照项,模型效果从F检验、拟合优度、多重共线性以及异方差检验四个方面进行说明。
1.模型效果
(1)F检验
从上表可以看出,离差平方和为293.242,残差平方和为156.720,而回归平方和为136.522。回归方程的显著性检验中,统计量F=49.903,对应的p值远远小于0.05,被解释变量的线性关系是显著的,可以建立模型。建立模型后,需要查看模型拟合优度是否可以,其中就可以查看R方与调整R方值。
(2)拟合优度
从上表可知,将高管平均年龄、高管平均任期、高管平均学历、高管团队人数以及企业规模资产作为自变量,而将研发投入作为因变量进行线性回归分析,从上表可以看出,模型R方值为0.466,调整R方为0.456,其中R方是决定系数,模型拟合指标。反应Y的波动有多少比例能被X的波动描述。调整R方也是模型拟合指标。当x个数较多是调整R²比R²更为准确。意味着社会资源, 教育水平, 科技发展可以解释创业可能性的46.6%变化原因。可见,模型拟合优度良好,说明被解释变量可以被模型解释的部分较少。接下来查看变量是否具有多重共线性。
补充说明:
R平方值表示模型拟合能力的大小,比如0.3表示自变量X对于因变量Y有30%的解释能力。这个值介于0~1之间,越大越好。但实际研究中并没有固定的标准,有的专业0.1甚至0.05这样都可以,但有的专业却常常出现0.8以上。一般情况下只需要报告此值即可,不用过多关注其大小,原因在于多数时候我们更在乎X对于Y是否有影响关系即可。
(3)多重共线性
VIF值用于检测共线性问题,一般VIF值小于10即说明没有共线性(严格的标准是5),有时候会以容差值作为标准,容差值=1/VIF,所以容差值大于0.1则说明没有共线性(严格是大于0.2),VIF和容差值有逻辑对应关系,因此二选一即可,一般描述VIF值。在【线性回归】分析时,SPSSAU会智能判断共线性问题并且提供解决建议。 结果中可以看出,变量的VIF值均小于5,所以此案例不存在多重共线性的问题。
但是如果存在多重共线问题,建议三种解决方法一是使用逐步回归分析(让模型自动剔除掉共线性过高项);二是使用岭回归分析(使用数学方法解决共线性问题),三是进行相关分析,手工移出相关性非常高的分析项(通过主观分析解决),然后再做线性回归分析。
(4)异方差检验
在计量研究中,异方差问题非常重要,严重的异方差问题会影响模型估计和模型检验等,因而在OLS回归时需要对其进行检验,如果出现异方差问题则需要进行处理等。将残差与自变量进行相关分析,观察残差与自变量是否有相关关系。
从上表可知,针对异方差情况,使用怀特(White)检验和BP检验两种方法进行检验。检验原假设为模型没有异方差,上表显示两种检验均拒绝原假设(p<0.05),说明模型存在异方差,建议可使用Robust稳健标准误回归方法进行研究,以解决异方差问题。返回分析页面进行勾选Robust稳健标准误即可。
2.模型结果
回归的中间过程包括F检验、拟合优度、多重共线性以及异方差检验,这些都是在分析前需要进行观测与分析的,接下来将从分析结果以及稳健性检验进行对模型结果的阐述。
(1)分析结果
上表可知,将高管平均年龄, 高管平均任期(天), 高管平均学历, 高管团队人数, 企业规模资产(元)作为自变量进行OLS回归分析,并且使用Robust稳健标准误回归方法进行研究,从上表可以看出,模型R方值为0.463,意味着高管平均年龄, 高管平均任期(天), 高管平均学历, 高管团队人数, 企业规模资产(元)可以解释研发投入(元)的46.31%变化原因。对模型进行F检验时发现模型通过F检验(F=67.196,p=0.000<0.05),也即说明高管平均年龄, 高管平均任期(天), 高管平均学历, 高管团队人数, 企业规模资产(元)至少一项会对研发投入(元)产生影响关系,以及模型公式为:研发投入(元)=1.644-1.315*高管平均年龄 + 0.004*高管平均任期(天) + 1.185*高管平均学历 + 0.339*高管团队人数 + 0.878*企业规模资产(元)。总结分析可知:高管平均学历, 高管团队人数, 企业规模资产(元)会对研发投入(元)产生显著的正向影响关系。以及高管平均年龄会对研发投入(元)产生显著的负向影响关系。但是高管平均任期(天)并不会对研发投入(元)产生影响关系。
(2)稳健性检验
稳健性检验是指模型的稳定性,使用多种形式时模型均稳定,应该显著的项还是显著,不显著的依旧不显著。一般情况下建议在线性回归时考虑加入控制变量,和不加入控制变量两种情况下对比模型的稳定性,当然也可以使用多种研究方法比如线性回归,逐步回归,分层回归等,多种方法测试同一个变量的显著性情况是否有着变化,如果无论如何均稳定或者极个别在变化,均说明模型具有稳健性。方法说明如下:
本次分析选择第一个分析方法,对于放置控制变量与不放置控制变量进行分析对比(本案例中控制变量为年份):
高管平均学历, 高管团队人数, 企业规模资产(元)会对研发投入(元)产生显著的正向影响关系。以及高管平均年龄会对研发投入(元)产生显著的负向影响关系。但是高管平均任期(天)并不会对研发投入(元)产生影响关系。总结可知,前后对比发现自变量显著性未发生改变模型具有稳健性。
五、总结
利用SPSSAU回归分析高管信息以及企业规模资产对于研发投入的影响。首先对数据进行处理包括数据取对数以及异常值检查。紧接着对于分析的基本关系进行查看,包括线性关系,相关关系以及正态性,对处理后的数据进行分析,从两个方面进行阐述,包括模型效果以及模型结果,模型效果从F检验、拟合优度、多重共线性以及异方差检验四个方面进行说明。发现模型具有异方差性,使用Robust稳健标准误回归方法进行研究。得到的结论是:高管平均学历, 高管团队人数, 企业规模资产(元)会对研发投入(元)产生显著的正向影响关系。以及高管平均年龄会对研发投入(元)产生显著的负向影响关系。对分析后的模型进行稳健性检验发现模型具有稳健性,分析结束。