【多元统计方法关键概念和术语介绍】(上)

【多元统计方法关键概念和术语介绍】(上) 

【多元统计方法关键概念和术语介绍】(上)

《Key concepts and terms in Multivariate Statistical Methods》by Baiju NT

 

 

这是一篇关于多元统计方法关键概念和术语介绍的文章。我们把一些概念放在一起,尤其是对于刚进入到统计领域的新人,我们希望对你们有所用处。你可以在www.camo.com下载多元统计方法的全部术语。

 


方差分析(ANOVA)

评估效应显著性的传统方法是通过将响应方差分解成和预测变量相关的可解释的部分,以及概述了实验误差的残差来进行的。

方差分析的主要结果有:平方和(SS),自由度(DF),均方差(MS=SS/DF),F值,p值。

如果响应变量的变化由于设计变量的变化,相对于实验误差来说很大,一个响应上的设计变量将被视为具有显著性。效应的显著性会给定一个p值:通常来说,如果p值小于0.05(5%),该效应被认为具有显著性。

 

偏差

预测值和测量值之间的系统差异。偏差计算为残差的平均值。

 

 

分类

 

分类是一种预测归属关系的数学分析方法。分类分析可以看成一种预测类别响应变量的方法。分析的目的是能够预测一个新的样本属于哪一个类别。分类方法的应用包括SIMCA,SVM分类,LDA,PLS-discriminant分类。

例如,分类方法可以从原材料的发源地,来判断各种混杂物的等级,或者根据它的质量来接受或者拒绝某个产品。

为了进行一个SIMCA分类,需要的条件有:

1、在相同变量基础上的一个或几个主成分分析模型;

2、已知或未知样本中变量的值。

每一个新的样本被投射到主成分分析模型,根据这个投射的结果,这个变量要么被识别成相同类别的一员,要么被拒绝。

 

 

聚类

 

聚类是分类方法的一种,它不需要任何关于可用样本的先验知识。在一个“簇”中,把它们分组在一起的基本原理是它们足够靠近对方。

聚类方法的应用包括K-means算法,这种算法的方式可以被视为选择不同的方法计算样本之间的距离。如果用到Ward’s分析方法,分层聚类也可以运行。

 

 

混淆矩阵

混淆矩阵是用来可视化呈现有监督的分类方法结果的矩阵,比如支持向量机分类算法和现行分类分析方法。它带有关于样本预测分类和真实分类两种信息,每一行展示一个预测类别的实例,每一列代表了真实类别的实例。

 

 

相关

一个衡量两个变量之间线性关系的测量单位。

相关的计算为两个变量的协方差除以两个变量各自方差的平方根。它从-1到1之间进行变化。

正相关表明两个变量之间的积极联系,比如,当一个变量增加时,另外一个也有增加的趋势。正相关越接近于+1,关系越强。

负相关表明两个变量之间的消极联系,比如,当一个变量增加时,另外一个有减少的趋势。负相关越接近于-1,关系越强。

 

 

协方差

用来衡量两个变量之间的线性关系。

 

协方差协方差就是这样一种用来度量两个随机变量关系的统计量,并且有时候很难解释,所以通常更简单的学习相关来替代。

 

 

交叉验证

 

是指将一些样本排除在建模之外,而用来进行预测的验证方法。这个过程一直重复进行,直到所有的样本都被预测了一次。验证剩余方差可以通过预测的残差相加来进行计算。

在分割交叉验证(K折交叉验证)中,所有的样本被分为子群或者“一段”,一段样本在当次建模时被排除在外,总共有和“分段数”相同次数的校准次数,因此预测是在所有样本上做出来的。最后的预测过程是所有样本一起执行的。

在完整交叉验证(留一验证)中,只有一个样本在一次迭代中被排除在建模之外。

posted @ 2015-12-07 21:19  菜鸡一枚  阅读(377)  评论(0编辑  收藏  举报