基本统计方法的选择与应用
一、确定资料的类型:分类资料、定量资料;
选择适当的统计方法,资料不同,设计不同,采用的分析方法不同;
1、计量资料的比较(比较集中趋势是否不同):
(1)两组:t检验、Wilcoxon秩和检验 …
t分布(近似正态分布):用于根据小样本来估计呈正态分布且方差未知的总体的均值。
定义:假设X服从标准正态分布N(0,1),Y服从 卡方分布,那么 的分布称为自由度为n的t分布,记为。
分布密度函数 ,其中,Gam(x)为伽马函数。
如:医保患者与自费患者住院天数是否不同?
资料与设计:两组独立的计量资料比较
统计方法:两独立样本 t 检验(independent samples t-test)
分析结果:t=2.17,P=0.033
参数统计方法(t检验、ANOVA)有应用前提条件:
A:资料满足正态性;
B:比较的各组资料之间方差相等(满足方差齐性)。
(2) 三组(及以上):方差分析、Kruskal-Wallis检验 …
如:医生、护士、医护人员的期望收入指数是否有差别?
资料与设计:三组独立的计量资料比较
统计方法:完全随机设计的方差分析(one-way ANOVA)
分析结果:F=20.89,P<0.0001
结论:有差别。
两变量之间关系的分析:
相关分析、回归分析、秩相关 …
如研究门急诊量与收入的关系、床位数与护士人数的关系
变化趋势分析:
Cochran-Armitage趋势检验、卡方检验 …
如分析两周患病率随年龄变化的趋势
综合评价:
层次分析法、TOPSIS法、秩和比法 …
如评价三甲医院医疗质量、综合绩效
示例:
研究医院床位数与护士人数之间是否有相关性。
研究目的:床位数(X)与护士人数(Y)之间是否有关?关系如何(线性、非线性)?关系大小?
(由样本推断总体)
资料与设计:来自于同一医院的两个指标
统计方法:
相关分析(correlaion analysis)衡量两指标之间是否有线性关系,及关系的强度和方向。
回归分析(regression analysis)定量进行X到Y的量化估计或预测。
变量关系的描述:散点图(scatter plot)
相关分析的结果:r=0.83,P<0.0001 95%CI:(0.61,0.93)
回归分析的结果:Y=-4.84 + 0.36X R平方=0.69
结论:
1. 可认为床位数与护士人数之间有关,护士人数随床位数的增加而增加。
2. 实有床位数的信息可以解释注册护士数信息量的69%,还有剩余的31%的信息需通过实有床位数以外的其他因素来解释。
2、分类资料
(1)无序分类资料的比较(比较率或构成是否不同):
卡方检验、Fisher精确概率法 …
如:
两样本率的比较(卡方检验)
用抗凝剂和不用抗凝剂治疗急性心肌梗塞患者的生存率是否不同?
P<0.01,按α=0.05水准拒绝H0 ,接受H1 ,可认为用与不用抗凝剂治疗急性心肌梗塞的效果不同,用抗凝剂后的生存率较高。
(2)有序等级资料的比较(比较平均程度、等级是否不同):
Wilcoxon秩和检验、Kruskal-Wallis检验 …
如:
比较三家医院门诊候诊时间是否有差别。统计很长,较长,一般,较短,很短有多少例。
资料与设计:三组独立的等级资料比较
统计方法:Kruskal-Wallis秩和检验(Kruskal-Wallis H test)
分析结果:2=7.81,P=0.020
医院1至医院3患者候诊时间的平均秩次分别为:171.06、172.03、142.62。
结论:可认为不同医院患者的候诊时间不全相同。医院3最短,尚不能认为医院1与医院2有差别。
----------------------------------------------------------------------------------
3、多元统计方法的选择与应用
(1)探索影响因素:
多重线性回归、logistic回归 …
如探索影响肺炎患者住院总费用的因素
(2)综合多个指标进行事物的分类或判别:
聚类分析、判别分析 …
(3)多指标的降维及潜在因素的探索:
主成分分析、因子分析 …
(4)预测事物的发展趋势:
指数平滑法、ARIMA预测方法 …
示例:研究目的:住院总费用的影响因素分析(年龄、性别(0-男;1-女)、住院天数、费别(0-自费;1-医保)、入院情况(0-一般;1-急症;2-危重)、所在医院(1-医院1;1-医院2;2-医院3;)、住院总费用)
资料与设计:目标指标(应变量)为计量资料
统计方法:多重线性回归(multiple linear regression)
筛选自变量的方法:
逐步法(stepwise)
前进法(forward)
后退法(backward)
注意:自变量的量化与赋值