【多元统计方法关键概念和术语介绍】(下)

【多元统计方法关键概念和术语介绍】(下) 

【多元统计方法关键概念和术语介绍】(下)

《Key concepts and terms in Multivariate Statistical Methods》by Baiju NT

 

 

这是一篇关于多元统计方法关键概念和术语介绍的文章。我们把一些概念放在一起,尤其是对于刚进入到统计领域的新人,我们希望对你们有所用处。你可以在www.camo.com下载多元统计方法的全部术语。

 


自由度

一个统计量的自由度是指计算该统计量时取值不受限制的变量个数。

自由度用来计算总体的方差和理论变量分布的。例如,如果用偏离平均值的平方的总和除以总和的自由度的数量,那么这个估计方差成为“修正的自由度”。

 

直方图

一种展示可观察到的数据点分布的图形。数据范围被分成数据段(也就是间隔),数据点的数量是每个数据段里的数目进行相加。

直方图里“条”的高度显示有多少该数据段的数据点。

 

K-means

一种数据聚类的算法。样本将会根据特定的距离测量,被分成K(用户定义的数目)簇,所以每一个样本和它属于的“簇”的中心的距离的总和是最小化的。

 

线性判别分析(LDA)

LDA是所有基于贝叶斯公式的可能分类方法里最简单的。LDA的目的是通过一个可开发的模型,为样本的分类确定最合适的参数。

 

 

平均值

在特定样本集上某一变量的平均数值。平均值计算为:用变量值的总和除以样本的数量。

平均值给出了一个样本集中所有值都围绕分布的一个数值。在统计结果中,平均值通常和标准差一同显示。

 

中位数

观测分布的中位数是指将该分布它的中间分开的变量值:有一半的观测值比中位数小,另外一半比中位数大。中位数也被称为第50百分位数。

 

缺失值

当一个给定的样本中一个给定的变量中的值是未知或者不可用时,这导致数据中有一个漏洞,类似的漏洞就被称为缺失值。当应用数据分析,却没有进行缺失值处理时,重建缺失值将会是一个很好地选择。

 

多元线性回归(MLR)

是指将响应变量(Y变量,因变量)的变化与几个预测因子(X变量,自变量)进行相关的方法,伴随着解释或者预测的目标。

该方法一个重要的假设是自变量(X变量)是线性无关的,也就是说X变量之间不存在线性关系。

posted @ 2015-12-07 21:19  菜鸡一枚  阅读(310)  评论(0编辑  收藏  举报