spss之回归

spss modeler-回归

正态分布（高斯分布）：

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ，σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

逆高斯分布：

二项分布：

二项分布就是重复n次独立的伯努利试验。（抛硬币）在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。

负二项分布：

伽马分布：

统计学的一种连续概率函数

泊松分布：

tweedle分布：

多项式分布：

回归：连续型拟合

1，descriptive statistics：描述性统计

　　mean：均值

　　Std.Deviation：标准差

　　N：所使用的记录数

2，correlations：相关性

　　主要分为：pearson correlations（皮尔森相关）：对称矩阵，表示变量之间两两相关系数。越接近1相关程度越高。

　　　　　　　sig.（1-tailed）（单托维显著性）：只要是显著性，不管是单托维或者双托维，都和0.05作比较。越接近0.05显著性越高。

　　　　　　　N：表示不同的变量之间的数据值。

3，variables entered/removed：变量的进入/移出，表示生成模型的第一步

4，model summary：模型概述

　　R：所得到的曲线拟合程度，和1做比较

　　R square：R的平方，曲线拟合的优异程度，和1做比较。

　　adjusted R square：模型复杂度的惩罚值。和1做比较。

　　Std.Error of the Estimate：预估的标准误。标准误=标准差/样本容量的开方。均值的置信区间是根据标准误来算的。

　　selection criteria：选择的标准

　　　　AIC：模型简洁度，此值越小越好。

　　　　MPC：模型变量选择权衡点，此值越小越好。

　　D-W：在一定程度上表达残差是否服从正太分布，越服从正太分布说明变量之间独立性越强，相关性越弱，正如我们所需要的，一般此值在0-4之间，越接近2越好。

5，ANOVA：方差分析

　　分为两大部分：regression 回归 residual 残差

　　　　sum of square：方差之和

　　　　df：自由度，取值不受限制的那些变量的个数，等于n-1

　　　　mean square：均方差

　　　　F：f值，通常用自由度可以查到自由度所对应F值，然后再跟模型计算的F值做比较，若计算的F值小于所查到的F值，说明差异不明显（F检验：方差齐性检验），若大于，则要进行T检验。

　　　　sig.：显著性，和0.05比较。如果是0.9的置信区间，则和0.1作比较。

6，coefficients：回归系数

　　unstandardized coefficients：非标化的回归系数

　　　　B：以下每个量的回归系数

　　　　Std.Error：以下每个量的标准误

　　standardized coefficients：标化的回归系数（通常直接看此项就行）

　　　　beta：以下每项的标注化回归系数

　　collinearity statistics：共线性统计，判断独立性

　　　　tolerance：容忍度，容差

　　　　VIF：与容忍度成反比，一般此值小于10说明变量之间独立性相对较好。

7，coefficients correlations：回归系数的相关性

　　correlations：各个变量之间的相关性，一般在0.8或者0.7以下最好。若是高于0.9，那么要对变量重新选择或者其他处理。

　　covariances：协方差

8，collinearity diagnostics：多重共线性诊断

　　condition index：条件指数，一般小于10认为不存在多重共线性，说明变量之间独立性较好。

9，residuals statistics：残差统计

　　最小值，最大值，均值，残差的标准差，残差个数

当共线性不能接受时：1，要重新选择变量；2，尝试有偏向性估计；3，扩大样本；4，设置“类型”节点时，有选择的“输入”角色。

推荐思路：1，将变量逐一与因变量进行相关分析。2，通过相关系数的筛选，将筛选的自变量与因变量一起做多重回归分析。

逻辑回归：离散型拟合

在类型节点里，如果变量是标志、类型、名义等属于二分或者多分的分类，那么建议用logistic回归来做。

一，模型

　　1，使用分割数据，为每个分割数据构建模型：

　　多项式回归：分为多个类来计算。

　　　　　　　　多项式过程—模型类型：

　　　　　　　　　　主效应：不考量相互之间结合对主成因的关系，只考量各自对主成因的效应关系。

　　　　　　　　　　全析因：全部考量

　　　　　　　　　　自定义：自定义各个变量之间的关系考量。（还可选所选变量之间的各自组合形式）

　　二项式回归：分为2,4类来计算。

GenLin模型：可模拟离散或者连续型变量。

一，专家

1，目标字段分布和连接函数：

　　　分布：

posted @ 2018-01-08 22:58 J蛋炒饭阅读(1405) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

J蛋炒饭

spss之回归

公告