主成分回归案例分析

一、案例背景

1.案例说明

研究调查100家公司2010-2013年关于财务方面的具体数据,这些财务指标维度分别为盈利能力、偿债能力、运营能力、发展能力以及公司治理。其中每个维度分别有几个分析项,但是有些指标是越大越好,有些指标是越小越好。 需要在研究前进行数据处理。

2.研究目的

利用偿债能力、运营能力、发展能力以及公司治理四个维度下的分析项进行主成分分析以及判断分析项与主成分之间的关系,利用得到的成分得分进行命名作为线性回归的自变量,用盈利能力下的三个指标作为线性回归的因变量,因为每次线性回归只能放入一个因变量所以重复进行三次分析并且得到结论。

二、数据处理

主成分的目的就是用少数几个成分去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个成分(之所以称其为成分,是因为它是不可观测的,即不是具体的变量),以最少的信息丢失为前提,以较少的几个成分反映原资料的大部分信息。

在进行主成分之前,由于所选取的指标体系中每个指标都有自己的量纲和变动差异性,这样给综合分析建模带来不便,于是我们需要对收集得到的数据进行预处理,以消除量纲和变动差异性的影响。通常对数据进行的处理包括标准化处理(Z-score 法)、正向处理、均值化处理等。

此案例中有些指标需要提前处理,具体指标隶属维度以及指标性质如下,比如资产负责率是逆向指标可以进行逆向化处理或者取倒数;但是取倒数需要分析项的数据大于0,其他指标需要正向化处理,公司治理的2个指标可以做正向化处理也可以做适度化,比如认为指标不是越大越好也不是越小越好,接近于某个值或某个范围内认为更好那就使用适度化,此案例中认为越大越好处理为正向化(也有参考文献做适度化处理,建议以参考文献为主)。

指标 指标性质
流动比率 正向指标
速动比率 正向指标
资产负债率 逆向指标
应收账款周转率 正向指标
存货周转率 正向指标
总资产周转率 正向指标
净利润增长率 正向指标
主营业务收入增长率 正向指标
总资产现金回收率 正向指标
销售现金比率 正向指标
每股经营性现金流量 正向指标
第一大股东持股比 正向指标
前十大股东持股比 正向指标

首先用SPSSAU将分析项进行“描述分析”观察数据的基本情况。发现资产负债率所有数据均大于0,所以进行处理时可以直接“取倒数”。

然后利用SPSSAU“数据处理”中的“生成变量”进行指标处理(一般正逆向化处理后不需要在进行标准化处理,因为已经正逆向化已经处理了量纲问题,但是取倒数后需要进行标准化处理)。

三、主成分结果

1.判断分析项与主成分之间的关系

上表格针对主成分提取情况,以及主成分提取信息量情况进行分析,从上表可知:主成分分析一共提取出4个主成分,特征根值均大于1,此4个主成分的方差解释率分别是23.869%,17.700%,12.686%,10.842%,累积方差解释率为65.097%。

成分与对应项之间的关系:

一般情况下,如果13项与4个成分之间的对应关系情况,与专业知识情况不符合,比如第一项被划分到了第一个成分下面,此时则说明可能这项应该被删除处理,其出现了‘张冠李戴’现象。因而在进行分析时很可能会对部分不合理项进行删除处理。除此之外,也有可能会出现‘纠缠不清’现象。

(1)“张冠李戴”

一般情况下,如果13项与4个成分之间的对应关系情况,与专业知识情况不符合,比如第一项被划分到了第一个成分下面,此时则说明可能这项应该被删除处理,其出现了‘张冠李戴’现象。例如案例中的“每股经营性现金流量”应该属于成分3是分析时被划分到别的成分中。

(2)“纠缠不清”

除了“张冠李戴”现象,有时候会出现‘纠缠不清’现象,比如案例中的“销售现金比率”可归属为成分3,同时也可归属到成分4,这种情况较为正常(称作‘纠缠不清’),需要结合实际情况处理即可,可将该项删除,也可不删除,这时,分析带有一定主观性。

Step1: 第一次分析

本例子中共13个分析项,此13个分析项共分为4个维度,因此在分析前可主动告诉SPSSAU,此13项是四个维度,否则SPSSAU会自动判断多少个成分 (通常软件自动判断与实际情况有很大出入,所以建议主动设置成分个数)。如下图:

上表格展示主成分对于研究项的信息提取情况,以及主成分和研究项对应关系,从上表可知:针对共同度而言,共涉及MMS_应收账款周转率,MMS_净利润增长率,MMS_主营业务收入增长率共3项,说明主成分和研究项之间的关系非常薄弱,主成分不能有效的提取出研究项信息。因而应该将此3项进行删除,删除之后再次进行分析。

Step2: 第二次分析

从上图中可以看出:

“流动比率”、“速动比率”以及“资产负债率”这3项,它们全部对应着成分1,公因子方差均高于0.4,说明此3项应该同属于一个维度,即逻辑上这3项,并没有出现 “张冠李戴”现象。但是有出现“纠缠不清”的情况。

“第一大股东持股比”和“前十大股东持股比”共2项,它们全部对应着成分2,但是二者出现“纠缠不清”的现象,考虑到此维度只剩下两个维度所以暂不处理。

“总资产现金回收率”、“销售现金比率”以及“每股经营性现金流量”共3项,当他们对应成分3, 其中“每股经营性现金流量”出现“张冠李戴”进行删除处理。对于“纠缠不清”的情况保留观察。

“存货周转率”、“总资产周转率”它们对应着成分4,但是二者出现“纠缠不清”的现象,考虑到此维度只剩下两个维度所以暂不处理。

总结上述分析可知“每股经营性现金流量”出现“张冠李戴”进行删除处理。而其他出现“纠缠不清”现象的,暂时不处理(进行关注即可)。重新分析如下。

Step3: 第三次分析

将“每股经营性现金流量”删除后进行分析如下:

从上图可知, 除了“流动比率”、“速动比率”以及“资产负债率”这3项, “销售现金比率”这一项,其余的项均存在“纠缠不清”的现象,但考虑到成分下只余下两项,因而表示可以接受,主成分析分析结束。

2.KMO值和巴特球形检验

使用主成分分析进行信息浓缩研究,首先分析研究数据是否适合进行主成分分析,从上表可以看出:KMO为0.614,大于0.6,满足主成分分析的前提要求,意味着数据可用于主成分分析研究。以及数据通过Bartlett 球形度检验(p<0.05),说明研究数据适合进行主成分分析。

3.成分选择个数

当数据确定可以使用主成分分析后,下一步确定主成分成分选择个数。

上表格针对主成分提取情况,以及主成分提取信息量情况进行分析,从上表可知:主成分分析一共提取出4个主成分,特征根值均大于1,此4个主成分的方差解释率分别是33.871%,20.571%,15.799%,13.779%,累积方差解释率为84.021%。(提示:如果主成分提取个数与预期不符,可在分析时主动设置主成分个数)。同时SPSSAU还提供了碎石图帮助研究者判断主成分提取个数。

4.提取成分

已经确定了成分选择个数经过分析得到载荷系数矩阵如下:

从结果中可以看出,主成分1中反映“流动比率”、“速动比率”以及“资产负债率”共3个指标的信息,它们主要反映了公司的偿债能力。主成分2中反映了“第一大股东持股比”和“前十大股东持股比”共2项,它们主要反映了公司治理能力,主成分3中反映了“存货周转率”、“总资产周转率”共2项,它们主要反映了公司运营能力,主成分4中反映了“总资产现金回收率”、 “销售现金比率”共两项,它们主要反映了公司发展能力。

整理表格如下:五个成分的名字分别叫F1偿债能力、F2治理能力、F3运营能力以及F4发展能力。

  F1 F2 F3 F4
MMS_速动比率 0.967      
MMS_流动比率 0.97      
S_Reciprocal_资产负债率 0.926      
MMS_存货周转率     0.657  
MMS_总资产周转率     0.5  
MMS_总资产现金回收率       0.627
MMS_销售现金比率       0.883
MMS_第一大股东持股比   0.706    
MMS_前十大股东持股比   0.686    

数据通过主成分分析得到四个维度,此案例的主要目的是研究上述四个维度对于公司盈利的影响,最终得到结论。将得到的成分得分利用SPSSAU标题处理进行命名,四个分析项作为线性回归的自变量,盈利能力下的三个指标作为因变量,重复进行三次线性回归,并进行对结果描述,回归结果描述分为两大部分,一为中间分析过程,二为回归分析结果。

四、主成分回归结果

想要得到成分得分可以在分析前勾选“成分得分”按钮,结束分析时SPSSAU单独生成新标题名称类似为:“PCA****_score1”。研究者可通过【数据处理->标题处理】对名称进行修改即可。:

F1偿债能力、F2治理能力、F3运营能力以及F4发展能力如下:

用得到的成分得分进行命名作为线性回归的自变量,用盈利能力下的三个指标作为线性回归的因变量,因为每次线性回归只能放入一个因变量所以重复进行三次分析并且得到结论。SPSSAU线性回归操作如下:

 

1.中间分析过程

(1)F检验

从上表可以看出,离差平方和为1.068,残差平方和为1.007,回归平方和为0.061。回归方程的显著性检验中,统计量F=5.934,对应的p值远远小于0.05,被解释变量的线性关系是显著的,可以建立模型。建立模型后,还需要进一步查看模型的拟合优度。

(2)拟合优度

从上表可知,将偿债能力、治理能力、运营能力以及发展能力作为自变量,而将“净资产收益率”作为因变量进行线性回归分析,从上表可以看出,模型R方值为0.057,调整R方为0.050,其中R方是决定系数,模型拟合指标。反应Y的波动有多少比例能被X的波动描述。调整R方也是模型拟合指标。当x个数较多是调整R²比R²更为准确。意味着偿债能力、治理能力、运营能力以及发展能力可以解释净资产收益率的5.7%变化原因。可见,模型拟合优度较差,说明被解释变量可以被模型解释的部分较少。不过一般情况下只需要报告此值即可,不用过多关注其大小,原因在于多数时候我们更在乎X对于Y是否有影响关系即可。接下来查看变量是否具有多重共线性。

  1. 多重共线性

VIF值用于检测共线性问题,一般VIF值小于10即说明没有共线性(严格的标准是5),有时候会以容差值作为标准,容差值=1/VIF,所以容差值大于0.1则说明没有共线性(严格是大于0.2),VIF和容差值有逻辑对应关系,因此二选一即可,一般描述VIF值。在【线性回归】分析时,SPSSAU会智能判断共线性问题并且提供解决建议。 结果中可以看出,变量的VIF值均小于5,所以此案例不存在多重共线性的问题。

但是如果存在多重共线问题,建议三种解决方法一是使用逐步回归分析(让模型自动剔除掉共线性过高项);二是使用岭回归分析(使用数学方法解决共线性问题),三是进行相关分析,手工移出相关性非常高的分析项(通过主观分析解决),然后再做线性回归分析。

多重共线性问题,如何解决?

通过分析结果发现回归分析的F检验结果较好,并且模型模型拟合优度良好能够解释大部分信息以及不存在多重共线性问题。接下来对回归分析结果进行描述并得出结论。

2.回归分析结果

(1)模型公式

从上表可知,将发展能力,运营能力,治理能力,偿债能力作为自变量,而将MMS_净资产收益率作为因变量进行线性回归分析,从上表可以看出,模型公式为:MMS_净资产收益率=0.929 + 0.006*发展能力-0.004*运营能力 + 0.008*治理能力 + 0.006*偿债能力(对于此案例来说模型预测意义不大)。

(2)分析结果

对模型进行F检验时发现模型通过F检验(F=5.934,p=0.000<0.05),也即说明发展能力,运营能力,治理能力,偿债能力中至少一项会对MMS_净资产收益率产生影响关系,
发展能力的回归系数值为0.006(t=2.308,p=0.022<0.05),意味着发展能力会对MMS_净资产收益率产生显著的正向影响关系。运营能力的回归系数值为-0.004(t=-1.592,p=0.112>0.05),意味着运营能力并不会对MMS_净资产收益率产生影响关系。治理能力的回归系数值为0.008(t=3.309,p=0.001<0.01),意味着治理能力会对MMS_净资产收益率产生显著的正向影响关系。偿债能力的回归系数值为0.006(t=2.219,p=0.027<0.05),意味着偿债能力会对MMS_净资产收益率产生显著的正向影响关系。
总结分析可知:发展能力, 治理能力, 偿债能力会对MMS_净资产收益率产生显著的正向影响关系。但是运营能力并不会对MMS_净资产收益率产生影响关系。

(3)影响关系大小

如果说自变量X已经对因变量Y产生显著影响(P< 0.01),还想对比影响大小,建议可使用标准化系数( Beta)值的大小对比影响大小,Beta值大于0时正向影响,该值越大说明影响越大。Beta值小于0时负向影响,该值越小说明影响越大。发展能力, 治理能力, 偿债能力会对MMS_净资产收益率产生显著的正向影响关系。三者标准化回归系数分别为:0.113、0.162、0.108,可以看出模型中“治理能力”对“净资产收益率”影响最大其次是“发展能力”。

通过分析发现,其中四个自变量中有三个对于因变量有影响并且关系均为正向影响关系,其中“治理能力”对“净资产收益率”影响最大。除了上述内容外,SPSSAU还提供了因变量预测模型、简化格式以及coefPlot.

(1)简化格式

简化格式只提供了回归系数、95%CI以及VIF,其中一个“*”代表该项成0.05水平显著,两个“*”代表该项成0.01水平显著。所以“治理能力”呈0.01水平显著,“发展能力”与“偿债能力”呈0.05水平显著。

(2)coefPlot

coefPlot展示具体的回归系数值和对应的置信区间,可直观查看数据的显著性情况,如果说置信区间包括数字0则说明该项不显著,如果置信区间不包括数字0则说明该项呈现出显著性。所以上图中发展能力, 治理能力, 偿债能力三个分析项的置信区间都不包括0,都呈现显著性,运营能力包括0,所以不显著。

3.其它

其它两个因变量与上述因变量描述过程相同,因为中间过程等均满足要求所以直接描述结论即可。

(1)因变量为“资产报酬率”的线性回归结果

1)分析结果

对模型进行F检验时发现模型通过F检验(F=24.629,p=0.000<0.05),也即说明发展能力,运营能力,治理能力,偿债能力中至少一项会对MMS_资产报酬率产生影响关系,发展能力的回归系数值为0.031(t=5.374,p=0.000<0.01),意味着发展能力会对MMS_资产报酬率产生显著的正向影响关系。运营能力的回归系数值为0.005(t=0.792,p=0.429>0.05),意味着运营能力并不会对MMS_资产报酬率产生影响关系。治理能力的回归系数值为0.035(t=6.035,p=0.000<0.01),意味着治理能力会对MMS_资产报酬率产生显著的正向影响关系。偿债能力的回归系数值为0.033(t=5.708,p=0.000<0.01),意味着偿债能力会对MMS_资产报酬率产生显著的正向影响关系。
总结分析可知:发展能力, 治理能力, 偿债能力会对MMS_资产报酬率产生显著的正向影响关系。但是运营能力并不会对MMS_资产报酬率产生影响关系。

2)影响关系大小

发展能力, 治理能力, 偿债能力会对MMS_净资产收益率产生显著的正向影响关系。三者标准化回归系数分别为:0.242、0.272、0.257,可以看出模型中“治理能力”对“净资产收益率”影响最大其次是“偿债能力”。

  1. 因变量为“主营业务利润率”的线性回归结果

1)分析结果

对模型进行F检验时发现模型通过F检验(F=29.795,p=0.000<0.05),也即说明发展能力,运营能力,治理能力,偿债能力中至少一项会对MMS_主营业务利润率产生影响关系,发展能力的回归系数值为0.007(t=2.122,p=0.034<0.05),意味着发展能力会对MMS_主营业务利润率产生显著的正向影响关系。
运营能力的回归系数值为-0.009(t=-2.463,p=0.014<0.05),意味着运营能力会对MMS_主营业务利润率产生显著的负向影响关系。治理能力的回归系数值为-0.000(t=-0.063,p=0.950>0.05),意味着治理能力并不会对MMS_主营业务利润率产生影响关系。偿债能力的回归系数值为0.036(t=10.422,p=0.000<0.01),意味着偿债能力会对MMS_主营业务利润率产生显著的正向影响关系。
总结分析可知:发展能力, 偿债能力会对MMS_主营业务利润率产生显著的正向影响关系。以及运营能力会对MMS_主营业务利润率产生显著的负向影响关系。但是治理能力并不会对MMS_主营业务利润率产生影响关系。

2)影响关系大小

发展能力, 偿债能力会对MMS_主营业务利润率产生显著的正向影响关系。以及运营能力会对MMS_主营业务利润率产生显著的负向影响关系。三者标准化回归系数分别为:0.094、-0.109、0.460,可以看出模型中“偿债能力”对“主营业务利润率”影响最大。

五、总结

此次案例分析主要利用SPSSAU针对主成分回归进行描述,首先对现有数据进行处理,得到的分析项进行主成分分析,其中包括判断分析项与主成分之间的关系,KMO值与巴特球形检验,成分选择个数以及提取成分,分析后将四个维度进行命名作为线性回归的自变量进行回归分析以及得到的结果分为两大部分进行描述,一为中间分析过程,二为回归分析结果,因为线性回归的因变量有三个,所有重复进行三次分析,其他两次分析在其它模块中,对于结论进行描述与总结,分析完毕。


更多干货请前往SPSSAU官网查看。

posted @ 2022-07-01 11:37  spssau  阅读(706)  评论(0编辑  收藏  举报