第六节 数据的关联性分析
关联分析(相关分析):用于考察变量间数据关联密切程度的统计分析方法,几乎所有涉及到多个变量的假设检验分析,这些都可以看作是这样变量间的关联分析
相关分析的分类
按照变量数量
一个变量 vs 另一个变量(平常指的就是这个)
一个变量 vs 一组变量
一组变量 vs 另一组变量
多组变量间的相关分析
按照变量种类
连续变量
有序分类变量
无序分类变量
各种相关系数
连续 vs 连续 :Pearson相关系数
Spearman秩相关系数
有序 vs 有序:Gamma系数等
无序 vs 无序 :列联系数等
基于卡方统计量进一步推导而来
无方向,0~1
OR/RR:一类特殊的关联强度指标
连续 vs 分类:Eta
实质为方差解释度
统计图表在相关分析中至关重要
连续变量:用散点图确认关联趋势是否为直线
分类变量:分组条图、马赛克图(分组百分条图)等工具
两连续变量的相关
直线相关
曲线相关,如果此时直接进行直线相关分析,有可能得出无相关性的结论
正相关、负相关
完全相关:不属于统计学的研究范畴
pearson相关系数r=协方差/方差x*方差y
变量x和变量y需服从正态分布的前提假设,值从-1到1,0表示不相关
pearson相关系数的检验
H0:两变量间无直线相关关系,ρ=0
t检验
pearson相关系数的适用条件
必须使线性相关
极端值对相关系数影响计算极大,因此要慎重考虑和处理
要求相应的变量呈双变量正态分布,有一定的耐受性
如果相关分析的两变量x、y并不符合使用条件时,r就不能正确反应x,y间的相关性,这时可以使用spearman秩相关系数rs,先对数据做秩变换,然后计算两组秩间的直线相关系数
# 相关分析 # 先考察图形 ccss.plot.scatter('s3', 'index1')
ss.pearsonr(ccss.s3, ccss.index1) # 0.21907931508110484相关系数,后一个是p值,拒绝了不相关
(-0.21907931508110484, 6.243011312736348e-14)
相对危险度RR:表示两种情况下发病密度或者说发病概率之比
Pt:实验组人群反应阳性概率
Pc:对照组人群反应阳性概率
如果RR>1,说明相应的自变量增加,会导致个体发病/死亡风险增加若干倍
优势比OR:RR的计算需要得到各组的反应概率,这在回顾性研究中很难满足,此时用OR代替RR
OR:为下列两种比例之比
反应阳性人群中实验因素有无的比例
反应阴性人群中实验因素有无的比例
import numpy as np import statsmodels.stats.contingency_tables as tbl # 这里必须使用numpy进行转换,否则后续计算可能报错 table5 = tbl.Table2x2(np.asarray(pd.crosstab(ccss.Ts9, ccss.O1))) table5
table5.summary() # Odds ratio是or,Estimate是or或者rr值,LCB置信区间
Estimate | SE | LCB | UCB | p-value | |
---|---|---|---|---|---|
Odds ratio | 0.201 | 0.135 | 0.300 | 0.000 | |
Log odds ratio | -1.603 | 0.203 | -2.001 | -1.204 | 0.000 |
Risk ratio | 0.278 | 0.196 | 0.392 | 0.000 | |
Log risk ratio | -1.281 | 0.177 | -1.627 | -0.935 | 0.000 |