第六节 数据的关联性分析

关联分析(相关分析):用于考察变量间数据关联密切程度的统计分析方法,几乎所有涉及到多个变量的假设检验分析,这些都可以看作是这样变量间的关联分析

相关分析的分类

  按照变量数量

    一个变量 vs 另一个变量(平常指的就是这个)

    一个变量 vs 一组变量

    一组变量 vs 另一组变量

    多组变量间的相关分析

  按照变量种类

    连续变量

    有序分类变量

    无序分类变量

各种相关系数

  连续 vs 连续 :Pearson相关系数

    Spearman秩相关系数

  有序 vs 有序:Gamma系数等

  无序 vs 无序 :列联系数等

    基于卡方统计量进一步推导而来

    无方向,0~1

    OR/RR:一类特殊的关联强度指标

  连续 vs 分类:Eta

    实质为方差解释度

统计图表在相关分析中至关重要

  连续变量:用散点图确认关联趋势是否为直线

  分类变量:分组条图、马赛克图(分组百分条图)等工具

两连续变量的相关

  直线相关

  曲线相关,如果此时直接进行直线相关分析,有可能得出无相关性的结论

  正相关、负相关

  完全相关:不属于统计学的研究范畴

pearson相关系数r=协方差/方差x*方差y

  变量x和变量y需服从正态分布的前提假设,值从-1到1,0表示不相关

pearson相关系数的检验

  H0:两变量间无直线相关关系,ρ=0

  t检验

pearson相关系数的适用条件

  必须使线性相关

  极端值对相关系数影响计算极大,因此要慎重考虑和处理

  要求相应的变量呈双变量正态分布,有一定的耐受性

如果相关分析的两变量x、y并不符合使用条件时,r就不能正确反应x,y间的相关性,这时可以使用spearman秩相关系数rs,先对数据做秩变换,然后计算两组秩间的直线相关系数

# 相关分析
# 先考察图形
ccss.plot.scatter('s3', 'index1')

ss.pearsonr(ccss.s3, ccss.index1)  # 0.21907931508110484相关系数,后一个是p值,拒绝了不相关
(-0.21907931508110484, 6.243011312736348e-14)

相对危险度RR:表示两种情况下发病密度或者说发病概率之比

  Pt:实验组人群反应阳性概率

  Pc:对照组人群反应阳性概率

如果RR>1,说明相应的自变量增加,会导致个体发病/死亡风险增加若干倍

优势比OR:RR的计算需要得到各组的反应概率,这在回顾性研究中很难满足,此时用OR代替RR

OR:为下列两种比例之比

  反应阳性人群中实验因素有无的比例

  反应阴性人群中实验因素有无的比例

import numpy as np
import statsmodels.stats.contingency_tables as tbl
# 这里必须使用numpy进行转换,否则后续计算可能报错
table5 = tbl.Table2x2(np.asarray(pd.crosstab(ccss.Ts9, ccss.O1)))
table5
table5.summary()  # Odds ratio是or,Estimate是or或者rr值,LCB置信区间
  EstimateSELCBUCBp-value
Odds ratio 0.201   0.135 0.300 0.000
Log odds ratio -1.603 0.203 -2.001 -1.204 0.000
Risk ratio 0.278   0.196 0.392 0.000
Log risk ratio -1.281 0.177 -1.627 -0.935 0.000

 

posted @ 2020-04-13 21:31  kog_maw  阅读(3479)  评论(0编辑  收藏  举报