【多元统计方法关键概念和术语介绍】(下)
【多元统计方法关键概念和术语介绍】(下)
【多元统计方法关键概念和术语介绍】(下)
《Key concepts and terms in Multivariate Statistical Methods》by Baiju NT
这是一篇关于多元统计方法关键概念和术语介绍的文章。我们把一些概念放在一起,尤其是对于刚进入到统计领域的新人,我们希望对你们有所用处。你可以在www.camo.com下载多元统计方法的全部术语。
自由度
一个统计量的自由度是指计算该统计量时取值不受限制的变量个数。
自由度用来计算总体的方差和理论变量分布的。例如,如果用偏离平均值的平方的总和除以总和的自由度的数量,那么这个估计方差成为“修正的自由度”。
直方图
一种展示可观察到的数据点分布的图形。数据范围被分成数据段(也就是间隔),数据点的数量是每个数据段里的数目进行相加。
直方图里“条”的高度显示有多少该数据段的数据点。
K-means
一种数据聚类的算法。样本将会根据特定的距离测量,被分成K(用户定义的数目)簇,所以每一个样本和它属于的“簇”的中心的距离的总和是最小化的。
线性判别分析(LDA)
LDA是所有基于贝叶斯公式的可能分类方法里最简单的。LDA的目的是通过一个可开发的模型,为样本的分类确定最合适的参数。
平均值
在特定样本集上某一变量的平均数值。平均值计算为:用变量值的总和除以样本的数量。
平均值给出了一个样本集中所有值都围绕分布的一个数值。在统计结果中,平均值通常和标准差一同显示。
中位数
观测分布的中位数是指将该分布它的中间分开的变量值:有一半的观测值比中位数小,另外一半比中位数大。中位数也被称为第50百分位数。
缺失值
当一个给定的样本中一个给定的变量中的值是未知或者不可用时,这导致数据中有一个漏洞,类似的漏洞就被称为缺失值。当应用数据分析,却没有进行缺失值处理时,重建缺失值将会是一个很好地选择。
多元线性回归(MLR)
是指将响应变量(Y变量,因变量)的变化与几个预测因子(X变量,自变量)进行相关的方法,伴随着解释或者预测的目标。
该方法一个重要的假设是自变量(X变量)是线性无关的,也就是说X变量之间不存在线性关系。