单因素方差分析（One Way ANOVA）

Analysis of variance (ANOVA) is a collection of statistical models and their associated estimation procedures (such as the "variation" among and between groups) used to analyze the differences among group means in a sample. ANOVA was developed by statistician and evolutionary biologist Ronald Fisher.

什么是单因素方差分析

　　单因素方差分析是指对单因素试验结果进行分析，检验因素对试验结果有无显著性影响的方法。

　　单因素方差分析是两个样本平均数比较的引伸，它是用来检验多个平均数之间的差异，从而确定因素对试验结果有无显著性影响的一种统计方法。

单因素方差分析相关概念

因素：影响研究对象的某一指标、变量。
水平：因素变化的各种状态或因素变化所分的等级或组别。
单因素试验：考虑的因素只有一个的试验叫单因素试验。

单因素方差分析示例

　　例如，将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象，以致减少了药效。下表列出了5种常用的抗生素注入到牛的体内时，抗生素与血浆蛋白质结合的百分比。现需要在显著性水平 $α = 0.05下检验这些百分比的均值有无显著的差异。设各总体服从正态分布，且方差相同。$

青霉素	四环素	链霉素	红霉素	氯霉素
29.6	27.3	5.8	21.6	29.2
24.3	32.6	6.2	17.4	32.8
28.5	30.8	11.0	18.3	25.0
32.0	34.8	8.3	19.0	24.2

　　在这里，试验的指标是抗生素与血浆蛋白质结合的百分比，抗生素为因素，不同的5种抗生素就是这个因素的五个不同的水平。假定除抗生素这一因素外，其余的一切条件都相同。这就是单因素试验。试验的目的是要考察这些抗生素与血浆蛋白质结合的百分比的均值有无显著的差异。即考察抗生素这一因素对这些百分比有无显著影响。这就是一个典型的单因素试验的方差分析问题。

单因素方差分析的基本理论

　　与通常的统计推断问题一样，方差分析的任务也是先根据实际情况提出原假设 $H 0 与备择假设 H 1 ，然后寻找适当的检验统计量进行假设检验。本节将借用上面的实例来讨论单因素试验的方差分析问题。$

　　在上例中，因素A（即抗生素）有s（=5）个水平 $A_1,A_2,\cdots,A_5$ ，在每一个水平 $A_j(j=1,2,\cdots,s)$ 下进行了 $\mu_1,\mu_2,\cdots,\mu_s$

　　 $H_0:\mu_1=\mu_2=\cdots=\mu_s$

　　 $H_1:\mu_1,\mu_2,\cdots,\mu_s$ 不全相等

为了便于讨论，现在引入总平均 $μ$

　　 $\mu=\frac{1}{n}\sum_{j=1}^s n_j \mu_j$ 其中： $n=\sum_{j=1}^s n_j$

再引入水平 $A j 的效应 δ j$

$\delta_j=\mu_j-\mu(j=1,2\ldots,s)$

显然有 $n_1\delta_1+n_2\delta_2+\cdots+n_s\delta_s=0$ ， $δ j 表示水平 A j 下的总体平均值与总平均的差异。$

利用这些记号，本例的假设就等价于假设

　　 $H_0:\delta_1=\delta_2=\cdots=\delta_s=0$

　　 $H_1:\delta_1,\delta_2,\cdots,\delta_s$ 不全为零

因此，单因素方差分析的任务就是检验s个总体的均值 $μ j 是否相等，也就等价于检验各水平 A j 的效应 δ j 是否都等于零。$

　　2. 检验所需的统计量

　　假设各总体服从正态分布，且方差相同，即假定各个水平 $A_j(j=1,2,\cdots,s)$ 下的样本 $x_{1j},x_{2j},\cdots,x_{n_jj}$ 来自正态总体 $N (μ j,σ 2)， μ j 与 σ 2 未知，且设不同水平 A j 下的样本之间相互独立，则单因素方差分析所需的检验统计量可以从总平方和的分解导出来。下面先引入：$

　　水平 $A j 下的样本平均值:$

　　 ${\overline x}_{\bullet j}=\frac{1}{n}\sum_{i=1}^{n_j}x_{ij}$

　　数据的总平均:

　　 $\overline{x}=\frac{1}{n}\sum_{j=1}^s\sum_{i=1}^{n_j}x_{ij}=\frac{1}{n}\sum_{j=1}^sn_j{\overline x}_{\bullet j}$

　　总平方和:

　　 $S_T=\sum_{j=1}^s \sum_{i=1}^{n_j}{(x_{ij}-\overline x)}^2$

总平方和 $S T 反映了全部试验数据之间的差异，因此 S T 又称为总变差。将其分解为$

　　 $S T = S E + S A$

其中:

　　 $S_E=\sum_{j=1}^s \sum_{i=1}^{n_j}{(x_{ij}\overline x}_{\bullet j})}^2$

　　 $S_A=\sum_{j=1}^s \sum_{i=1}^{n_j}{({\overline x}_{\bullet j\overline x)}^2=\sum_{j=1}^s n_j({\overline x}_{\bullet j}-\overline x)^2)$

上述 $(x_{ij}\overline x}_{\bullet j})^2$

　　可以证明 $H_0:\delta_1=\delta_2=\cdots=\delta_s=0$

　　 $S A / σ 2 ˜χ 2 (s - 1)$

　　 $S E / σ 2 ˜χ 2 (n - s)$

于是，当 $H_0:\delta_1=\delta_2=\cdots=\delta_s=0$ 为真时

　　 $F=\frac{(S_A)/(s-1)}{(S_E)/(n-s)}=\frac{\frac{S_A}{\sigma^2}/(s-1)}{\frac{S_E}{\sigma^2}/(n-s)} \sim F(s-1,n-s)$

这就是单因素方差分析所需的服从F分布的检验统计量。

　　3. 假设检验的拒绝域

　　通过上面的分析可得，在显著性水平 $α下，本检验问题的拒绝域为$

　　 $F=\frac{(S_A)/(s-1)}{(S_E)/(n-s)}\le F_{\alpha}(s-1,n-s)$

为了方便分析比较，通常将上述分析结果编排成如下表所示的方差分析表。表中的 $\overline S_A,\overline S_E$ 分别称为 $S A, S E 的均方。$

方差来源	平方和	自由度	均方	F比
因素A	$S A$	$s - 1$	$\overline S_A=\frac{S_A}{s-1}$	$F=\frac{\overline S_A}{\overline S_E}$
误差	$S E$	$n - s$	$\overline S_E=\frac{S_E}{n-s}$
总和	$S T$	$n - 1$