生物统计复习

1. 绪论

1.1 统计学

研究数据的 收集、 整理 、 分析 和 解释 的科学，是处理数据中 变异性 的科学和艺术。

统计分析可分为 统计描述和统计推断两部分

统计描述：用统计图表、统计指标或几个特征数描述资料的数据特征和分布规律
统计推断：用样本信息来推断总体特征

目的：求得可靠的结果
任务：在变异的背景上描述同一总体的同质性，揭示不同总体的变异性

1.2 为什么要学习生物统计

变异性(variation)：个体之间存在差异，普遍性
不确定性：变异不能准确推断
复杂性：影响因素众多，存在未知因素：遗传、环境、噪音（随机因素）

1.3 变量

连续型变量/度量数据

与某种标准做比较得到的数据，通常为非整数值，如时间、长度、血压值等
离散型数据/计数数据
计数资料：通过计数方式得到，必须用整数表示
分类资料
- 不同类别之间无等级之分
- 有序变量：不同类别之间有内在的等级之分

可以从包含信息丰富的向包含信息简单的转化：
连续型数据 -> 有序变量 -> 二分类变量

1.4 参数和统计量

参数：描述总体特征的数，通常是未知的
统计量：描述样本特征的数，是样本观测值的已知函数

1.5 准确性和精确性

准确性(accuracy)：实验中某一实验指标的观测值和真值接近的程度
精确性(precision)：同一实验指标的重复观测值彼此接近的程度

试验(trial)：涉及到人，临床试验
实验(experiment)：不涉及到人，如小鼠实验

1.6 误差与错误

随机误差（不能完全消除）：来源于试验过程中各种偶然因素的影响
系统误差（某种程度上可控）：由于试验处理以外的其他条件明显不一致产生的带有倾向性的或定向性的偏差。主要由一些相对固定的因素引起。原因可能有仪器本身误差(instrumental errors)、采用方法的误差(method errors)、个人误差(personal errors)、环境误差（environmental error）
错误（在实验中完全可以避免）：是指在试验过程中，人为的作用所引起的差错。

2. 统计资料的收集和整理

2.1 抽样

目的：推断总体。为了保证样本可靠性和代表性，需要使用随机的方法抽样

2.2 统计描述（统计图和统计表）

2.2.1 统计表

2.2.2 统计图

血清铁含量的频数直方图：单峰、对称
发汞含量频数直方图：单峰、不对称

常见的统计图类型：

柱形图：长短表示大小
直方图：矩形面积表示大小
饼图：适用于类别不多的分类资料的频率分布
线性图：反映动态变化趋势

2.3 样本特征数

2.3.1 算数平均值

适用条件：对称分布

直接法
加权平均值：用频数作为权重

2.3.2 几何平均值

适用条件：观察值变化范围跨越多个数量级的资料；正偏峰分布。例如：药物效价、抗体滴度

2.3.3 中位数

适用条件：单峰不对称数据；

对称分布：均值与中位数较近
偏态分布：均值与中位数不同
- 右偏：均值＞中位数
- 左偏：均值＜中位数

2.3.4 分位数

直接计算法
频数法

2.3.5 极差

2.3.6 方差、标准差（总体、样本）

注意：样本标准差的自由度是N-1

2.3.7 变异系数(Coefficient of variation)

标准差和均值的比值，用百分数表示

2.3.8 偏斜度

2.3.9 峭度

3. 理论分布

离散变量：二项分布、泊松分布
连续变量：正态分布

3.1 二项分布

3.2 泊松分布

沙子芝麻模型：发生的频率很小

3.3 正态分布

3.3.1 标准正态分布 u分布/z检验

3.3.2 参考值范围

医学中习惯用95%作为参考值范围,$\phi(u=0.975) = 1.96$

3.3.3 二项分布和泊松分布近似正态分布的条件

4. 抽样分布

4.1 抽样分布的概念

由样本的统计数构成的总体服从一定的分布，称为统计数的抽样分布，如 平均数的抽样分布 和 方差的抽样分布

4.2 u分布标准正态分布

适用条件：

正态分布，$\sigma$已知
正态分布，$\sigma$未知，大样本
非正态分布，$\sigma$已知，大样本
非正态分布，$\sigma$未知，大样本

中心极限定理：随着样本容量的增大，样本均值的分布越来越趋于正态分布

标准误(SEM standard error of mean)：样本均值的标准差！！！（非常重要）

4.3 t分布

适用条件：

正态分布，$\sigma$未知
非正态总体，$\sigma$未知，小样本

使用样本标准差$s = \sqrt{\frac{\sum(x-\mu)^2}{n-1}}$ 代替总体标准差$\sigma$
n越大，曲线越瘦高，越接近正态分布的曲线。

统计量正常算，查表的时候按自由度确定界值。

t分布的查表：

4.4 两个总体样本均值的和与差

4.4.1 标准差已知 u分布

4.4.2 标准差未知，t分布

$\sigma_1 , \sigma_2$未知，且$\sigma_1 = \sigma_2$

4.5 卡方分布单个样本方差

对同一总体、相同容量的不同样本计算卡方值，得到的卡方值符合一定的分布。

可加性：U和V是两个独立的卡方分布随机变量，自由度分别为n1和n2，则U+V服从自由度为n1+n2的卡方分布
卡方分布的形状随着df的变化而变化，通常为不对成的正偏分布，随着df的增大逐渐趋于对称。

4.6 F分布两个样本方差比的分布

F 分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线。
其形态随着df1、df2的增大逐渐趋于对称。

5. 参数估计

5.1 点估计

衡量估计量的标准：

无偏性：估计量的数学期望等于被估计的总体参数
有效性：估计量的标准差越小越好
一致性：随着样本容量的增大，估计量越来越接近被估计的总体参数

5.2 区间估计

按照一定的置信度($1-\alpha$) 估计总体参数所在的范围。

5.2.1 总体均数的置信区间

正态近似法

适用条件：

$\sigma$已知
$\sigma$未知，且n很大

t分布法

适用条件：

$\sigma$未知，且n较小
注意：计算统计量按照正常的n，查找对应的界值时需要根据自由度，如df=n-1。

5.2.2 均数之差的置信区间

5.2.3 总体概率的置信区间

n<=50, 且P接近0或1：查表法
n足够大，且np和n(1-p)均大于5：正态分布法

5.2.4 标准差的置信区间

5.2.5 标准差之比

5.2.6 影响置信区间大小的因素

置信度$1-\alpha$越大，置信区间越大
个体的变异 $\sigma 或 s^2$ 越大，置信区间越大
样本含量越大，置信区间越小

6. 假设检验

理论依据：小概率事件原理，即认为小概率事件在一次试验中几乎是不可能发生的。

将样本统计量转化为u值，t值等检验统计量，然后与相应的临界值比较
确定某事件发生的概率，从而作出是否为小概率事件的判断

注意：

单侧检验更容易得出有差别的结果（拒绝H0），需要慎重使用！
对于H0假设只能说拒绝/不拒绝

6.1 两类错误

第一类错误：弃真/假阳性，犯错概率$\alpha$
第二类错误：取伪/假阴性，犯错概率$\beta$

假设检验一般控制的是第一类错误的发生概率

检验水准：$\alpha$
检验功效/检验效能：不犯二类错误的概率$1-\beta$
提高检验功效($1-\beta$)的方法

差异大，即阴性/阳性之间的均值距离大
样本量大，方差小，曲线瘦高
$\alpha$越大，$\beta$越小，检验功效越好

6.2 u检验（$\sigma$已知）

适用条件：

$\sigma$已知，总体为正态分布
$\sigma$已知，总体分布不明，但是n较大(n>30)

$\sigma$未知，总体为正态分布，且样本量大（因为样本量大，所以此时t检验和u检验的效果差不多）

6.3 t检验（$\sigma$未知）

适用条件：

$\sigma$未知，总体为正态分布(n>3)

问题：$\sigma$未知，总体分布不明是无法处理的。
解决办法：增大样本，是样本均值趋于正态分布，然后使用u统计量。

6.4 配对数据的显著性检验（配对数据的t检验）

6.5 完全随机设计两总体均数的比较

6.5.1 正态总体，$\sigma_1 和 \sigma_2$已知 `u检验`

6.5.2 正态总体，$\sigma_1 和 \sigma_2$未知但相等 `t检验`

6.5.3 正态总体，$\sigma_1 和 \sigma_2$未知且可能不等， `t'检验`(t'统计量需要加权)

6.6 两正态总体的方差齐性检验

例题：

特殊情况：如果已知总体的标准差$\sigma$，则将样本方差和总体方差作比。然后根据自由度读取F统计量的临界值。总体方差的自由度为$\infty$。

7. 单因素方差分析

7.1 分析基础

当有3组数据时，为什么使用方差分析而不使用假设检验？

第一类错误的概率增大
会造成统计资料的浪费，检验准确性降低

方差分析 Analysis of Variance(ANOVA)，又被称为F检验。用于判断多个总体均值有无差异。

方差分析的前提：正态、方差齐

7.2 单因素方差分析

基本思想：将总变异按照来源分解为多个部分，然后进行比较，评价某种因素所引起的变异是否具有统计学意义。
$SS_总 = SS_{组间} + SS_{组内}$

离均差平方和 SS：sum of squares of deviations from mean
均方差 MS：mean square 用$MS = \frac{SS}{df}$
F值：$F = \frac{MS_{组间}}{MS_{组内}}$。如果处理因素对结果没有影响，则组间MS和组内MS是相同的，反应的是随机误差。
- F接近于1，没有理由拒绝H0。
- F值越大，拒绝H0的理由越充分

理论依据：当H0：各组均值相同成立时，F统计量服从F分布。