pearson, kendall 和spearman三种相关分析方法的区别
1. Pearson相关
http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient
Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(coefficient of product-moment correlation)。进行相关分析时,我们一般会同时对两变量绘制散点图,以更直观地考察两变量之间的相互变化关系。
例7-1 某医生为了探讨缺碘地区母婴TSH水平的关系,应用免疫放射分析测定了160名孕妇(15-17周)及分娩时脐带血TSH水平(mU/L),现随机抽取10对数据,见表7.6,试对母血TSH水平与新生儿脐带血TSH水平进行相关分析。
表7.6 10名孕妇及其分娩时脐带血TSH水平
母血TSH |
1.21 |
1.30 |
1.39 |
1.42 |
1.47 |
1.56 |
1.68 |
1.72 |
1.98 |
2.10 |
脐带血TSH |
3.90 |
4.50 |
4.20 |
4.83 |
4.16 |
4.93 |
4.32 |
4.99 |
4.70 |
5.20 |
对资料进行相关分析之前,我们可以先对其绘制散点图,以考察两变量的真实变化关系,我们可以应用第二章中介绍过的plot过程或gplot过程来执行绘制散点图的功能。散点图完成后再计算变量之间的相关系数,对相关系数进行假设检验,以量化形式表示变量间的相关关系。
为方便起见,此处我们将绘制散点图和相关分析一次完成。此处将母血TSH水平用x1来表示,脐带血TSH水平用x2来表示,编制SAS程序如下。
data temp; |
input x1 x2@@; |
datalines; |
1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 |
1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 |
; |
proc gplot; |
plot x2*x1='*'; |
run; |
proc corr; |
var x1 x2; |
run; quit; |
进行Pearson相关分析是Corr过程的默认方式,故无需再在proc corr语句后指定pearson选项。
将以上程序提交执行,结果如下。
(1)两变量散点图,见图7.1。
图7.1 变量x1与x2之散点图
(2)两变量相关分析结果
The SAS System 19:34 Monday, December 23, 2002 4
The CORR Procedure
2 Variables: x1 x2
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
x1 10 1.58300 0.28856 15.83000 1.21000 2.10000
x2 10 4.57300 0.42277 45.73000 3.90000 5.20000
Pearson Correlation Coefficients, N = 10
Prob > |r| under H0: Rho=0
x1 x2
x1 1.00000 0.68073
0.0303
x2 0.68073 1.00000
0.0303
结果中首先给出两变量的描述性统计量,然后给出变量的相关系数矩阵(var语句所列变量中任两者之间的相关系数),对于检验假设为H0:的假设检验结果(仅给出P值)列在相应相关系数的下面。
本例中,散点图表现出明显的椭圆形,说明两变量间存在一定的直线相关,相关分析的结果也验证了这一点,相关系数不为零(P=0.0303<0.05)。
另外,用with语句可以对特定的变量对进行相关分析,此例可将corr过程中间的语句改为:
var x1;
with x2;
因此例仅有两个变量,原程序显得更为简便,但在变量较多时,with语句可发挥很好的作用。
2. Spearman秩相关
http://en.wikipedia.org/wiki/Spearman's_rank_correlation_coefficient
当两变量不符合双变量正态分布的假设时,需用Spearman秩相关来描述变量间的相互变化关系。此时,散点图上散点的分布形态不能完全描述两变量间的相关关系,故此时一般不需再绘制散点图。
例7-2 用60Co对狗造成急性放射病,对照射后5天时的健康状况进行综合评分,并记录其存活天数,见表7.7。试作等级相关分析。
表7.7 狗急性放射病综合评分及其存活天数
综合评分 |
79 |
80 |
91 |
90 |
70 |
87 |
92 |
存活天数 |
45 |
30 |
16 |
24 |
28 |
25 |
14 |
将综合评分和存活天数分别用变量x和y表示,编制程序如下。
data temp; |
input x y@@; |
datalines; |
79 45 80 30 91 16 90 24 |
70 28 87 25 92 14 |
; |
proc corr spearman nosimple; |
var x y; |
run; quit; |
Proc corr语句的spearman选项即要求用Spearman秩相关来进行数据分析,nosimple选项则用来禁止对变量描述性统计量的输出。
提交上述程序,结果如下。
The SAS System 19:34 Monday, December 23, 2002 6
The CORR Procedure
2 Variables: x y
Spearman Correlation Coefficients, N = 7
Prob > |r| under H0: Rho=0
x y
x 1.00000 -0.89286
0.0068
y -0.89286 1.00000
0.0068
SAS仍旧给出相关系数矩阵,其内容和Pearson相关分析的完全一样,只不过相关系数的计算方法不同而已。
3. 对于kendall tau correlation coefficient,可参考
http://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient
对于上述三个相关性分析,有篇简单介绍计算的:http://www.cnblogs.com/kemaswill/archive/2012/11/01/2749842.html
这里所指的单变量,是针对自变量个数而言的,在不特别说明的情况下,应变量均为单个变量。单变量线性回归为回归分析中最为简单的情形,也是其它类型回归分析的基础。
例7-3 针对例7-1资料,分娩时脐带血TSH水平(mU/L)受母血TSH水平的影响,试进行回归分析。
此例资料中,脐带血TSH水平随母血TSH水平的变化而变化,前者应被看作为应变量,用y表示,后者为自变量,用x表示。编制如下程序。
data temp; |
input x y@@; |
datalines; |
1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 |
1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 |
; |
proc reg; |
model y=x; |
run; quit; |
虽然reg过程选项、语句复杂,但我们经常用到的一般比较简单,此例即为最简单的情形,达到了reg过程程序代码的最低限度。提交上述程序,结果如下。
The SAS System 10:35 Wednesday, December 25, 2002 1
The REG Procedure
Model: MODEL1
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 0.74542 0.74542 6.91 0.0303
Error 8 0.86319 0.10790
Corrected Total 9 1.60861
Root MSE 0.32848 R-Square 0.4634
Dependent Mean 4.57300 Adj R-Sq 0.3963
Coeff Var 7.18304
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 2.99422 0.60958 4.91 0.0012
x 1 0.99733 0.37945 2.63 0.0303
结果第一部分为模型的方差分析结果。第二部分给出模型的有关重要统计量,如R2(R-Square)、校正R2(Adj R-Sq)等指标。第三部分为模型的参数估计情况,分别给出截距项和自变量回归系数等的估计值以及对应的假设检验结果。
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Spearman相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。
Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验; 取值范围在-1-1之间,此检验适合于正方形表格;