生物统计复习
1. 绪论
1.1 统计学
研究数据的 收集
、 整理
、 分析
和 解释
的科学,是处理数据中 变异性
的科学和艺术。
统计分析可分为 统计描述
和统计推断
两部分
- 统计描述:用统计图表、统计指标或几个特征数描述资料的数据特征和分布规律
- 统计推断:用样本信息来推断总体特征
目的:求得可靠的结果
任务:在变异的背景上描述同一总体的同质性,揭示不同总体的变异性
1.2 为什么要学习生物统计
- 变异性(variation):个体之间存在差异,普遍性
- 不确定性:变异不能准确推断
- 复杂性:影响因素众多,存在未知因素:遗传、环境、噪音(随机因素)
1.3 变量
连续型变量/度量数据
- 与某种标准做比较得到的数据,通常为非整数值,如时间、长度、血压值等
离散型数据/计数数据 - 计数资料:通过计数方式得到,必须用整数表示
- 分类资料
- 不同类别之间无等级之分
- 有序变量:不同类别之间有内在的等级之分
可以从包含信息丰富的 向 包含信息简单 的转化:
连续型数据
-> 有序变量
-> 二分类变量
1.4 参数和统计量
参数:描述总体特征的数,通常是未知的
统计量:描述样本特征的数,是样本观测值的已知函数
1.5 准确性和精确性
准确性(accuracy):实验中 某一实验指标的观测值和真值接近的程度
精确性(precision):同一实验指标的重复观测值彼此接近的程度
试验(trial):涉及到人,临床试验
实验(experiment):不涉及到人,如小鼠实验
1.6 误差与错误
- 随机误差(不能完全消除):来源于试验过程中各种偶然因素的影响
- 系统误差(某种程度上可控):由于试验处理以外的其他条件明显不一致产生的带有倾向性的或定向性的偏差。主要由一些相对固定的因素引起。原因可能有仪器本身误差(instrumental errors)、采用方法的误差(method errors)、个人误差(personal errors)、环境误差(environmental error)
- 错误(在实验中完全可以避免):是指在试验过程中,人为的作用所引起的差错。
2. 统计资料的收集和整理
2.1 抽样
目的:推断总体。为了保证样本可靠性
和代表性
,需要使用随机的方法抽样
2.2 统计描述(统计图和统计表)
2.2.1 统计表
2.2.2 统计图
- 血清铁含量的频数直方图: 单峰、对称
- 发汞含量频数直方图: 单峰、不对称
常见的统计图类型:
- 柱形图:长短表示大小
- 直方图:矩形面积表示大小
- 饼图:适用于类别不多的分类资料的频率分布
- 线性图:反映动态变化趋势
2.3 样本特征数
2.3.1 算数平均值
适用条件:对称分布
- 直接法
- 加权平均值:用频数作为权重
2.3.2 几何平均值
适用条件:观察值变化范围跨越多个数量级的资料;正偏峰分布。例如:药物效价
、抗体滴度
2.3.3 中位数
适用条件:单峰不对称数据;
- 对称分布:均值与中位数较近
- 偏态分布:均值与中位数不同
- 右偏:均值>中位数
- 左偏:均值<中位数
2.3.4 分位数
- 直接计算法
- 频数法
2.3.5 极差
2.3.6 方差、标准差(总体、样本)
注意:样本标准差的自由度
是N-1
2.3.7 变异系数(Coefficient of variation)
标准差和均值的比值,用百分数表示
2.3.8 偏斜度
2.3.9 峭度
3. 理论分布
离散变量:二项分布、泊松分布
连续变量:正态分布
3.1 二项分布
3.2 泊松分布
沙子芝麻模型
:发生的频率很小
3.3 正态分布
3.3.1 标准正态分布 u分布/z检验
3.3.2 参考值范围
医学中习惯用95%作为参考值范围,\(\phi(u=0.975) = 1.96\)
3.3.3 二项分布和泊松分布近似正态分布的条件
4. 抽样分布
4.1 抽样分布的概念
由 样本的统计数 构成的总体服从一定的分布,称为统计数的抽样分布,如 平均数的抽样分布
和 方差的抽样分布
4.2 u分布 标准正态分布
适用条件:
- 正态分布,\(\sigma\)已知
- 正态分布,\(\sigma\)未知,大样本
- 非正态分布,\(\sigma\)已知,大样本
- 非正态分布,\(\sigma\)未知,大样本
中心极限定理:随着样本容量的增大,样本均值的分布越来越趋于正态分布
标准误(SEM standard error of mean):样本均值的标准差!!!(非常重要)
4.3 t分布
适用条件:
- 正态分布,\(\sigma\)未知
- 非正态总体,\(\sigma\)未知,小样本
使用样本标准差\(s = \sqrt{\frac{\sum(x-\mu)^2}{n-1}}\) 代替 总体标准差\(\sigma\)
n越大,曲线越瘦高,越接近正态分布的曲线。
统计量正常算,查表的时候按自由度确定界值。
t分布的查表:
4.4 两个总体样本均值的和与差
4.4.1 标准差已知 u分布
4.4.2 标准差未知,t分布
\(\sigma_1 , \sigma_2\)未知,且\(\sigma_1 = \sigma_2\)
4.5 卡方分布 单个样本方差
对同一总体、相同容量的不同样本计算卡方值,得到的卡方值符合一定的分布。
可加性
:U和V是两个独立的卡方分布随机变量,自由度分别为n1和n2,则U+V服从自由度为n1+n2的卡方分布- 卡方分布的形状随着df的变化而变化,通常为不对成的正偏分布,随着df的增大逐渐趋于对称。
4.6 F分布 两个样本方差比的分布
F 分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线。
其形态随着df1、df2的增大逐渐趋于对称。
5. 参数估计
5.1 点估计
衡量估计量的标准:
无偏性
:估计量的数学期望等于被估计的总体参数有效性
:估计量的标准差越小越好一致性
:随着样本容量的增大,估计量越来越接近被估计的总体参数
5.2 区间估计
按照一定的 置信度(\(1-\alpha\)) 估计总体参数所在的范围。
5.2.1 总体均数的置信区间
正态近似法
适用条件:
- \(\sigma\)已知
- \(\sigma\)未知,且n很大
t分布法
适用条件:
- \(\sigma\)未知,且n较小
注意:计算统计量按照正常的n,查找对应的界值时需要根据自由度,如df=n-1。
5.2.2 均数之差的置信区间
5.2.3 总体概率的置信区间
- n<=50, 且P接近0或1:查表法
- n足够大,且np和n(1-p)均大于5:正态分布法
5.2.4 标准差的置信区间
5.2.5 标准差之比
5.2.6 影响置信区间大小的因素
- 置信度\(1-\alpha\)越大,置信区间越大
- 个体的变异 \(\sigma 或 s^2\) 越大 ,置信区间越大
- 样本含量越大,置信区间越小
6. 假设检验
理论依据:小概率事件原理,即认为小概率事件在一次试验中几乎是不可能发生的。
- 将样本统计量转化为u值,t值等检验统计量,然后与相应的临界值比较
- 确定某事件发生的概率,从而作出是否为小概率事件的判断
注意:
- 单侧检验更容易得出有差别的结果(拒绝H0),需要慎重使用!
- 对于H0假设只能说
拒绝/不拒绝
6.1 两类错误
第一类错误:弃真/假阳性,犯错概率\(\alpha\)
第二类错误:取伪/假阴性,犯错概率\(\beta\)
假设检验一般控制的是第一类错误的发生概率
检验水准:\(\alpha\)
检验功效/检验效能:不犯二类错误的概率\(1-\beta\)
提高检验功效(\(1-\beta\))的方法
- 差异大,即阴性/阳性之间的均值距离大
- 样本量大,方差小,曲线瘦高
- \(\alpha\)越大,\(\beta\)越小,检验功效越好
6.2 u检验(\(\sigma\)已知)
适用条件:
- \(\sigma\)已知,总体为正态分布
- \(\sigma\)已知,总体分布不明,但是n较大(n>30)
- \(\sigma\)未知,总体为正态分布,且样本量大(因为样本量大,所以此时t检验和u检验的效果差不多)
6.3 t检验(\(\sigma\)未知)
适用条件:
- \(\sigma\)未知,总体为正态分布(n>3)
问题:\(\sigma\)未知,总体分布不明是无法处理的。
解决办法:增大样本,是样本均值趋于正态分布,然后使用u统计量。
6.4 配对数据的显著性检验(配对数据的t检验)
6.5 完全随机设计两总体均数的比较
6.5.1 正态总体,\(\sigma_1 和 \sigma_2\)已知 u检验
6.5.2 正态总体,\(\sigma_1 和 \sigma_2\)未知但相等 t检验
6.5.3 正态总体,\(\sigma_1 和 \sigma_2\)未知且可能不等, t'检验
(t'统计量需要加权)
6.6 两正态总体的方差齐性检验
例题:
特殊情况:如果已知总体的标准差\(\sigma\),则将样本方差和总体方差作比。然后根据自由度读取F统计量的临界值。总体方差的自由度为\(\infty\)。
7. 单因素方差分析
7.1 分析基础
当有3组数据时,为什么使用方差分析而不使用假设检验?
- 第一类错误的概率增大
- 会造成统计资料的浪费,检验准确性降低
方差分析
Analysis of Variance(ANOVA
),又被称为F检验。用于判断多个总体均值有无差异。
方差分析的前提:正态、方差齐
7.2 单因素方差分析
基本思想:将总变异按照来源分解为多个部分,然后进行比较,评价某种因素所引起的变异是否具有统计学意义。
\(SS_总 = SS_{组间} + SS_{组内}\)
离均差平方和 SS
:sum of squares of deviations from mean均方差 MS
:mean square 用\(MS = \frac{SS}{df}\)F值
:\(F = \frac{MS_{组间}}{MS_{组内}}\)。如果处理因素对结果没有影响,则组间MS和组内MS是相同的,反应的是随机误差。- F接近于1,没有理由拒绝H0。
- F值越大,拒绝H0的理由越充分
理论依据:当H0:各组均值相同
成立时,F统计量服从F分布。
7.3 平均值之间的多重比较
如果拒绝H0,接受H1,表示总体均数不全等,需要进一步作多重比较
- LSD:预先规定的两两比较
- SNK:Post hoc 两两比较
- Bonferronis:适用于比较次数不多的情况。当比较次数较多时,结论偏保守,犯假阳性的几率低。
7.3.1 LSD
7.3.2 SNK q test
7.3.3 Bonferroni 法
7.4 方差齐性检验
最大方差和最小方差之比大于2.5,考虑方差齐性检验
7.4.1 Bartlett 检验法(仅适用于正态分布)
7.4.2 Lavene 检验法
- 适用于正态分布和非正态分布
- 适用于两个以及多个样本
7.4.3 数值变换 (改善正态性或方差齐性)
8. 双向方差分析
8.1 随机区组设计
\(SS_{总} = SS_{区组} + SS_{处理} + SS_{误差}\)
\(v_{总} = v_{区组} + v_{处理} + v_{误差}\)
\(v_{总} = ab-1, v_{区组} = b-1, v_{处理} = a-1, v_{误差} = (a-1)*(b-1)\)
方差分析表
8.2 析因设计的方差分析 (factorial design)
析因分析的问题类似于:
- 甲药、乙药是否有效
- 两种药物之间是否有交互作用
两个处理因素:A(a个水平),B(b个水平),共a*b种组合;每个组合下有n个受试对象。全体受试对象为abn.
主效应:
谁的主效应,就是指该因素对结果的作用。
离均差平方和的分解
误差项\(SS_{e}\)的自由度为\((abn-1) - (ab-1) = ab(n-1)\)
其中n 是每组中对象的数量!!!
方差分析表
例题:
9. 秩和检验 (rank sum test)
适用条件:
- 分布类型未知或非正态分布的资料
- 方差不齐的资料
- 等级资料(不精确,但是又等级顺序)
- 一端/两端有不确定数值的资料(如>10, <0.1等)
检验步骤:
9.1 两个独立样本的比较(Wilcoxon秩和检验)
9.1.1 样本数量较少,计算秩和T,查表法
9.1.2 样本数量多,u检验
计算z值,然后查表确定临界值和概率。
9.2 K个独立样本检验 H检验
- 计算H值/Hc值
- 根据自由度($v = g-1 $)和每组的例数确定是查H界值表、还是适用卡方分布
- g = 3, ni <= 5, 查H界值表
- g >= 3, ni > 5, H或Hc近似服从$v = g-1 $的卡方分布,查卡方界值表
K个独立样本检验的两两比较法
9.3 配对样本比较的Wilcoxon符号秩检验
9.4 K个相关样本检验
适应条件:
- 随机区组设计多个样本比较的
- Friedman M检验
方法选择:
- 当b<=15 和 k<=15 时:
计算M值,查表
- 卡方近似法
10 一元回归和简单相关
相关:研究两个变量彼此的关系,关联程度。要求X和Y都是随机变量。
回归:研究变量X是如何影响变量Y的。要求Y是随机变量。
相关系数的r检验和回归系数b的t检验是等效的。
注意:不能盲目地进行相关性分析,要先绘制散点图,确定数据的分布是否真的存在相关性。
10.1 相关系数
总体相关系数
\(\rho\) 和 样本相关系数 r
即使r≠0,\(\rho\)也有可能等于0。因此需要进行假设检验。
自由度\(v = n-2\)!!!
相关系数r的查表假设检验法
t假设检验
10.2 一元回归
使用最小二乘法,是的残差平方和最小。
需要记住斜率b
和截距a
的计算方法
10.2.1 回归分析的理论前提LINE
10.2.2 b的假设检验 t检验
需要检验\(\beta\)是否为0
自由度\(v=n-2\)
10.2.3 方差分析
方差分析用来判断 方程是否有统计学意义。
- \(SS_{回归}\)的自由度为1. 估计值和平均值之间的残差平方和
- \(SS_{剩余}\)的自由度为n-2. 估计值和真实值之间的残差平方和
利用\(MS_{回归}\)和\(MS_{剩余}\)作比值得到F统计量,进行方差分析。
11. 多重线性回归和相关
多重回归:多个X和1个Y
步骤:
- 求回归方程(最小二乘法)
- 假设检验(方差分析,偏相关系数假设检验
t检验
) - 自变量的选择(全局选择法;前进法、后退法、逐步法)
11.1 求回归方程
标准偏回归系数:消除量纲对回归系数的影响
将偏回归系数bi乘上 特征样本标准差
和 总体样本标准查
的比值
11.2 回归方程的假设检验
- 回归MS的自由度为m(自变量的数量)
- 剩余MS的自由度为n-m-1
11.3 评价回归的指标
- 剩余标准差
- 决定系数 \(R^2\)
- 校正决定系数 \(R^2_c\)
- 复相关系数
- 偏相关系数(可以进行t检验):扣除指定数目变量后的相关系数
偏相关系数的假设检验 t检验
11.4 自变量的选择
- 全局法
- 逐步选择法:
- 前进法
- 后退法
- 逐步回归法:引入有意义的变量,剔除无意义变量
11.5 其他问题
11.5.1 多重共线性
11.5.2 交互效应
14. 实验设计
14.1 研究设计的基本要素
- 处理因素
- 受试对象
- 实验效应
14.2 实验设计的基本原则:
- 对照原则
- 随机化原则
- 重复原则
对照的形式:
- 安慰剂对照
- 盲法:单盲/双盲
- 空白对照
- 实验对照:施加基础实验条件
- 相互对照:如中药和西药
- 自身对照:实验在同一受试对象上进行
- 标准对照
- 历史对照
随机化原则
意义:
- 客观:随机分组
- 代表性:随机抽样使抽取的样本具有代表(总体)性
- 抽样研究理论和统计分析方法的需要
- 实验顺序随机:每个研究对象先后接收处理的机会相同
重复原则:
- 整个实验的重复
- 对多个实验对象进行重复(普遍性)
- 对同一对象进行重复(降低实验误差)
14.3 几种不同设计类型的随机化分组
- 关注单个因素
- 完全随机实验
- 配对实验:同源配对;非同源配对
- 随机区组实验设计
- 交叉设计:同源配对设计的扩展
- 关注多个因素
- 析因设计:使用多因素方差分析
配对设计/随机区组设计:
交叉设计
14.4 样本量的估计