数据挖掘——统计学分析(三:数据的概括性度量)

数据的概括性度量

数据的分布特征可从三方面去描述:1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; 2)分布的离散程度,反映各数据远离其中心值的趋势; 3)分布的形状,反映数据分布的偏态和峰态。

 

集中趋势的度量

 

分类数据:众数

一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。

顺序数据:中位数、分位数

中位数、四分位数、十分位数、百分位数

数值型数据:平均数

主要适用于数值型数据,根据所掌握数据的不同,平均数的计算形式和计算公式:

简单平均数和加权平均数

众数、中位数和平均数的比较

单峰分布的大多数据:众数、中位数和平均数之间的关系如下—数据分布是对称的,众数、中位数和平均数必定相等。

离散程度的度量

分类数据:异众比率

非众数据的频数占总频数的比例,主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

适用于测度分类数据的分散程度。

 

顺序数据:四分位差

反映中间50%数据的离散程度,其值越小,说明中间的数据越集中;其值越大,说明中间的数据越分散。

主要适用于顺序数据的离散程度。

 

数值型数据:方差和标准差

极差易受极端值的影响。

平均差全面地反映一组数据的离散程度。

方差:较好地反映数据的离散程度,实际中应用最广。

标准差:比方差更具实际意义。

相对离散程度:离散系数。

离散系数->变异系数,是一组数据的标准差与其相应平均数之比。离散系数越大说明数据的离散程度也大;离散系数越小,说明数据的离散程度也小。

偏态与峰态的度量

 

偏态及其测度

对数据分布对称性地测度,用偏态系数来表示,偏态系数=0,说明数据分布是对称的。

偏态系数不等于0,说明数据分布非对称的;若偏态系数大于1或小于1,称为高度偏态分布;若偏态系数在0.5~1-1~0.5之间,被认为是中等偏态分布;

峰态及其测度

峰态是相对于标准正态分布而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0,若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖。

 

 

 

posted @ 2018-10-03 10:17  程序媛墨禾  阅读(1493)  评论(0编辑  收藏  举报