第六章 方差分析
第六章 方差分析
方差分析(Analysis of variance,ANOVA):
又叫变量分析,是英国著名统计学家R . A . Fisher于20世纪提出的。它是用以检验两个或多个均数间差异的假设检验方法。它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。
方差分析的基本功能
对多组样本平均数差异的显著性进行检验
t 检验可以判断两组数据平均数间的差异显著性,而方差分析既可以判断两组又可以判断多组数据平均数之间的差异显著性。
试验指标(experimental index): 为衡量试验结果的好坏和处理效应的高低,在实验中具体测定的性状或观测的项目称为试验指标。常用的试验指标有:身高、体重、日增重、酶活性、DNA含量等等。
试验因素( experimental factor): 试验中所研究的影响试验指标的因素叫试验因素。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上因素对试验指标的影响时,则称为两因素或多因素试验。
因素水平(level of factor): 试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如研究3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平。
试验处理(treatment): 事先设计好的实施在实验单位上的具体项目就叫试验处理。如进行饲料的比较试验时,实施在试验单位上的具体项目就是具体饲喂哪一种饲料。
试验单位( experimental unit ): 在实验中能接受不同试验处理的独立的试验载体叫试验单位。一只小白鼠,一条鱼,一定面积的小麦等都可以作为实验单位。
重复(repetition): 在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4个重复。
第一节 方差分析的基本原理
一、方差分析的基本思想、目的和用途
二、数学模型
三、平方和与df的分解
四、统计假设的显著性检验
五、多重比较
方差:又叫均方,是标准差的平方,是表示变异的量。
在一个多处理试验中,可以得出一系列不同的观测值。
方差分析的用途:
1. 用于多个样本平均数的比较
2. 分析多个因素间的交互作用
3. 回归方程的假设检验
4. 方差的同质性检验
二、数学模型
(一) 固定模型(fixed model)
在固定模型中,除去随机误差之后的每个处理所产生的效应是固定的,试验重复时会得到相同的结果
方差分析所得到的结论只适合于选定的那几个水平,并不能将其结论扩展到未加考虑的其它水平上。
二)随机模型(random model)
在随机模型中,水平确定之后其处理所产生的效应并不是固定的,试验重复时也很难得到相同的结果
方差分析所得到的结论,可以推广到这个因素的所有水平上
(三)混合模型(mixed model)
指多因素试验中既有固定因素又有随机因素时所用的模型.
在实际应用中,固定模型应用最多,随机模型和混合模型相对较少
三、平方和与df的分解
四、统计假设的显著性检验 ——F 检验
二者相比,如果相差不大,说明不同处理的变异在总变异中所占的位置不重要,也就是不同试验处理对结果影响不大。
如果相差较大,也就是处理效应比试验误差大得多,说明试验处理的变异在总变异中占有重要的位置,不同处理对结果的影响很大,不可忽视。
五 多重比较
多重比较(multiple comparisons)
要明确不同处理平均数两两间差异的显著性,每个处理的平均数都要与其他的处理进行比较,这种差异显著性的检验就叫多重比较。
统计上把多个平均数两两间的相互比较称为多重比较。
方法:
最小显著差数法: least significant difference LSD法
最小显著极差法: least significant ranges LSR法
LSD法的实质是两个平均数相比较的t检验法。
LSR法克服了LSD法的局限性,采用不同平均数间用不同的显著差数标准进行比较,它可用于平均数间的所有相互比较。
最小显著差数法(LSD法)
(一)最小显著差数法(LSD法)
标记字母法
在各平均数间,凡有一个相同标记字母的即为差异不显著,凡具不同标记字母的即为差异显著。
差异极显著标记方法相同,但用大写字母标记。
(二)最小显著极差法(LSR法)
方差分析的基本步骤
(1)将样本数据的总平方和与总自由度分解为各变异因素的平方和与自由度;
(2)列方差分析表进行F检验,以弄清各变异因素在总变异中的重要程度;
(3)对各处理平均数进行多重比较。
第二节 单因素方差分析
在试验中所考虑的因素只有一个时,称为单因素实验。
单因素方差分析是最简单的一种,它适用于只研究一个试验因素的资料,目的在于正确判断该试验因素各处理的相对效果(各水平的优劣).
需要指出的是,不等观测次数的试验要尽量避免,因为这样的试验数据不仅计算麻烦,而且也降低了分析的灵敏度。
第三节 二因素方差分析
一、相关概念
试验指标:衡量试验结果的标准,例如:猪的日增重,小麦产量,
因素(factor):也叫因子,是指对试验指标有影响,在研究中加以(控制)考虑的试验条件。
水平(level):每个因素的不同状态(从质或量方面分成不同的等级)
因素是一个抽象的概念,水平则是一个较为具体的概念
处理:指对试验对象施以不同的措施
固定效应(fixed effect):由固定因素所引起的效应。
随机效应(random effect):由随机因素引起的效应。
二因素方差分析:
定义:是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。
无重复观测值的二因素方差分析
依据经验或专业知识,判断二因素无交互作用时,每个处理可只设一个观测值,即假定A因素有a各水平,B因素有b个水平,每个处理组合只有一个观测值。
无重复观测值的二因素方差分析,所估计的误差实际上是这两个因素的相互作用,这是在两个因素不存在互作,或互作很小的情况下进行估计的。
但是,如果存在两个因素的互作,方差分析中就不能用互作来估计误差,必须在有重复观测值的情况下对试验误差进行估计
具有重复观测值的二因素方差分析
具有重复观测值的二因素试验的典型设计是:假定A因素有a水平,B因素有b水平,则每一次重复都包括ab次实验,设试验重复n次,资料模式在P98。
第四节 多因素方差分析
实际工作中,往往需要考察三个或多个因素的效应。这相当于把二因素方差分析扩展到一般情况。如在一个试验中,A因素有a水平, B因素有b水平, C因素有c水平等,假设每一处理都有n次重复,那么总观测次数为abcn次。本节仅对三因素的情况进行分析。
第五节 方差分析缺失数据的估计
弥补缺失数据的原则:
使补上缺失的数据后,误差平方和最小。
有一点必须明确,缺失数据估计并不能恢复原来的数据,只能是补足后不致于干扰其余数据,估计的数据并不能提出任何新的信息,因此,试验中应尽量避免这类情况发生。
方差分析缺失数据的估计
缺失一个数据的估计方法
缺失的数据补上后进行方差分析时,总自由度dfT和误差自由度dfe均减2。由于误差自由度减小,F检验的灵敏度相应降低,对分析问题是不利的,补救的数据只是不干扰方差分析,并不能提供丢失的信息,所以进行试验时,要谨慎小心,尽量避免数据的丢失。
对试验数据进行方差分析是有条件的,即方差分析的有效性建立在一些基本假定上,如果分析的数据不符合这些基本假定,得出的结论就不会正确。一般地说,在试验设计时,就应考虑方差分析的条件。
第六节 方差分析的基本假定和数据转换
方差分析的基本假定
正态性
可加性
方差同质性
正态性:
试验误差应当是服从正态分布的独立的随机变量。因为方差分析只能估计随机误差,顺序排列或顺序取样资料不能作方差分析。应用方差分析的资料应服从正态分布,即每一观测值Xij应围绕相应的平均数呈正态分布。
非正态分布的资料进行适当数据转后,也能进行方差分析。