回归分析有多少种？

在进行自变量X与因变量Y的影响关系研究时，大家第一反应都大概知道需要进行回归分析，但是回归分析的方法有很多种，常用的回归分析方法有哪些？各种回归分析方法之间的区别是什么？应该怎样选择最合适的回归分析方法呢？

今天一文将回归分析方法相关知识进行说明。

1、回归分析方法

回归分析简单来讲就是用于分析自变量X与因变量Y之间的影响关系的方法。回归分析主要基于自变量X的值预测因变量Y的值，通过构造回归模型，帮助理解自变量如何影响因变量，以及各个自变量对因变量的影响程度。

SPSSAU中回归分析方法可分为以下二十种：

为什么会有如此多的回归分析方法？

在研究X对于Y的影响时，会区分出很多种情况，比如因变量Y的数据类型，可能是定类数据也可能是定量数据；Y的个数有多个或者1个。同时每种回归分析还有很多前提条件，如果不满足则有对应的其它回归方法进行解决。这也就解释了为什么会有如此多的回归分析方法。

那么面对如此多种类回归分析方法，该如何快速选择最合适的方法进行回归分析呢？

2、回归模型选择

论文写作用中回归模型的选择，一般需要结合自变量和因变量的个数以及数据类型进行判断。

（1）‍数据类型

数据分为两类：定类数据和定量数据

简单进行区分：看数字大小是否具有比较意义

定量数据：数字大小具有比较意义

例如：GDP、身高、体重、工资、量表题选项（1,2,3,4,5）等等

定类数据：数字大小仅代表分类，不具有比较意义

例如：性别（1和0分别代表男和女，不具有比较意义）、学历、职位等

（2）回归分析方法初步判断

回归分析方法初步判断方法如下：

第一步：首先判断因变量类型

当因变量为定量数据且只有1个时，一般使用线性回归进行分析；

当因变量为定量数据且有多个时，可以使用PLS回归进行分析；

当因变量为定类数据时，一般常用logistic回归进行分析。

第二步：若判定为线性回归，看自变量个数

自变量为1个时，选择一元线性回归分析；

自变量为多个时，选择多元线性回归分析。

第三步：若判定为logistic回归，看因变量

因变量为2类，比如男&女、苹果&安卓、阳性&阴性，选择二元logistic回归分析；

因变量为多类，比如学科数学、语文、英语、物理，选择多分类logistic回归分析；

因变量为多类且有序，比如不满意、一般、满意，选择有序logistic回归分析。

以上为比较常见的回归分析方法选择的一般步骤，其中提到的回归方法都是在实际研究中使用频率较高的。

（3）深入分析线性回归模型

线性回归模型是当前使用最为成熟，研究最多的回归分析方法之一。线性回归模型会有很多假定，或者需要满足的条件，如果不满足这些假定或者条件可能会导致模型使用出错，分析结果存在偏差等问题出现，那么此时就有对应的其它回归模型出来解决这些问题，因而跟着线性回归后面又出来很多其他回归分析方法，如下图：

1、自动找出影响关系

多元线性回归研究多个自变量X对因变量Y的影响，当希望让模型自动找出对Y有意义的X时，此时可以使用逐步回归进行分析。逐步回归分析可以查看下方帮助手册说明：

逐步回归帮助手册

2、线性回归分组/分层

在进行中介作用或者调节作用分析时，可能会用到分层回归或者分组回归。分层回归可以得出：分层a到分层b(b=a+1)时R方变化和F值变化，便于观察加入新的X时回归模型的变化信息等。分组回归的实质目的在于查看不同组别时，X对于Y的影响差异。

分层回归帮助手册

分组回归帮助手册

3、共线性问题时

在进行线性回归时，如果出现共线性问题时，可以使用岭回归、逐步回归进行分析。lasso回归和PLS回归也可以在一定程度上解决共线性问题，但是用较少，通常岭回归使用比较广泛。

岭回归帮助手册

逐步回归帮助手册

laasso回归帮助手册
 PLS回归帮助手册

4、异常值问题时

当数据中存在异常值时，通常需要将异常值剔除后再进行回归分析，但是当不能将异常值剔除，需要将异常值考虑在模型中时，此时可以使用稳健回归（Robust回归）进行分析。稳健回归会对不同点的残差给予不同权重，异常点的残差值会比较大，因为其对应的权重会很小，最终拟合出的结果也更加稳健可靠。

稳健回归帮助手册

5、非线性关系时

线性回归模型使用的前提条件是X与Y之间存在线性关系（可在分析前通过散点图查看），但是有时二者并不是线性关系，此时可以选择使用曲线回归、非线性回归、广义线性回归三类回归分析进行研究。

曲线回归：

曲线回归在关系形式上是非线性关系，但可通过各类转换变成线性关系，最终建立回归模型。比如建立二次曲线拟合，最终模型表达式为：y = β0+β1*x+β2*x2 ；SPSSAU当前提供7类曲线拟合模型，详情请查看下方帮助手册说明。

曲线回归帮助手册

非线性回归

如果数学模型为非线性模型，需要使用非线性回归进行分析。比如人口学增长模型Logistic（S模型），其模式公式为：y = b1 / (1 + exp(b2 + b3 * x))，此数学表达式并非线性表达式，因此不能使用SPSSAU的线性回归进行拟合。

SPSSAU当前提供约50类非线性函数表达式，涵盖绝大多数非线性函数表达式。

非线性回归帮助手册

广义线性模型

广义线性模型是对一般线性模型的扩展。将因变量分布由正态分布推广到指数一族分布，应用范围更广了。常见的广义线性模型有Possion回归、负二项回归、logistic回归、Probit回归等。

Possion回归帮助手册

负二项回归帮助手册

二元logistic回归
 多分类logistic回归

有序logistic回归
 二元Probit回归

3、回归分析操作和分析

以多元线性回归分析为例，使用SPSSAU进行操作和分析演示。

（1）操作

选择分析方法->拖拽数据至右侧分析框->点击开始分析

（2）分析

SPSSAU输出结果线性回归分析结果如下：

多元线性回归模型分析一般可分为以下几步：

① 对模型基本情况进行分析

模型总体显著性—F检验：用于判定是否X中至少有一个对Y产生影响，如果呈现出显著性，则说明所有X中至少一个会对Y产生影响关系。

从上表来看，F检验对应p值=0.000<0.01，说明呈现出显著性，即模型构建是有意义的，至少有1个X会对Y产生影响关系。

模型拟合情况—R方：R方的值介于0~1之间，代表模型的拟合程度，一般认为越大越好。R方为0.3，则说明所有X可以解释Y30%的变化原因。

从上表来看，R方为0.973，说明所有X可以解释Y97.3%的变换原因，模型拟合较好。

模型共线性问题—VIF值：共线性是指在线性回归分析时，出现的自变量之间彼此相关的现象。一般VIF值大于10（严格大于5），则认为存在严重的共线性。

从上表来看，VIF值均小于10，可以认为不存在共线性问题。

② 分析自变量X的显著性

自变量X的显著性通过t检验进行判断，如果X对应t检验的p值小于0.05说明具有显著性，即该自变量会对因变量产生显著影响。

从上表来看，“初始工资”、“教育程度”、“工作经验”对应t检验的p值均小于0.05，说明这3个自变量均会对因变量“工资”产生显著影响。

③ 判断自变量对因变量的影响大小和影响方向

自变量对因变量影响大小的比较是通过标准化回归系数进行比较的。标准化回归系数的绝对值越大，说明该自变量对因变量的影响越大；回归系数的正负代表影响方向。

从上表来看，“初始工资”、“教育程度”、“工作经验”的标准化回归系数分别是：0.168、-0.046、0.881；所以工作经验对工资的影响最大，其次是初始工资，影响最小的是教育程度，且初始工资与工作经验对工资的影响是显著正向的，而教育程度对工资的影响是显著负向的。

④ 回归模型公式

构建回归模型使用非标准化回归系数，它是方程中不同自变量对应的原始回归系数，反映了在其他自变量不变的情况下，该自变量每变化一个单位对因变量作用的大小。通过非标准化回归系数构建的回归方程，才可以对因变量进行预测。

从上表来看，回归模型公式为：工资=18326.101 + 0.353*初始工资-280.300*教育程度 + 144.955*工作经验。

posted @ 2023-03-28 18:12 spssau 阅读(1366) 评论(0) 编辑收藏举报

刷新页面返回顶部

spssau