★P〓P★的随笔

纸上得来终觉浅,绝知此事要躬行。

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.2 描述性数据汇总

《数据挖掘:概念与技术(原书第2版)》

 

2.2 描述性数据汇总
Ø 对于许多数据预处理任务,用户希望知道关于数据的中心趋势离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)、中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。
 
2.2.1 度量数据的中心趋势
Ø 数据集的“中心”最常用、最有效的数值度量是(算术)均值。设x1,x2,…,xN是(如某个想salary这样的属性)N个值或观测的集合。该值集的均值是

(2-1)

Ø 分布式度量(distributive measure是一种可以通过如下方法技术度量(即函数):将数据集划分成较小的子集,计算每个自己的度量,然后合并计算结果,得到原(整个)数据集的度量值。Sum()和count()都是分布式度量,因为它们都可以用这种方法技术。其他例子包括max()和min()。

Ø 代数度量(algebraic measure是可以通过应用一个代数函数于一个或多个分布度量计算的度量。因此,average(或mean())是代数度量(algebraic measure,因为它可以通过sum()/count()计算。当我们技术数据立方体的时候,sum()和count()可以在预计算时保留。这样,导出数据立方体的average是直截了当的。

Ø 有时,集合中每个值xi与一个权值wi相关联,i = 1,…,N。权值反映对应值的显著性、重要性或出现频率。在这种情况下,我们可以计算加权算数均值(weighted arithmetic mean加权平均(weighted average。加权平均是代数度量的又一个例子。

(2-2)

Ø 均值的主要问题是对于极端值(如离群值)很敏感。即使少量极端值也可能影响均值。
Ø 为了抵消少数极端值的影响,我们可以使用截断均值(trimmed mean。截断均值是去掉高、低极端值得到的均值。应当避免在两端截断的比例太大,因为这可能导致损失有价值的信息。
Ø 对于倾斜的(非对称的)数据,数据中心的一个较好的度量是中位数。设给定的N个不同值的数据集按数值序排序。如果N是奇数,则中位数是有序集的中间值;否则(即N是偶数),中位数是中间两个值的平均值。

Ø 整体度量(holistic measure是必须对整个数据集计算的度量。整体度量不能通过将给定数据划分成自己并合并每个子集上度量得到的值来计算。中位数是整体度量的一个例子。计算整体度量的开销比计算上述分布式度量的开销大得多

Ø 然而,我们可以很容易的计算数据集中位数的近似值。假定数据根据它们的xi值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分到诸如10~20K,20~30K等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式插值技术整个数据集的中位数的近似值:

(2-3)


Ø 对公式(2-3)的理解:括号中的一堆计算的是【中位数区间中低于中位数的数据频率所占的比例】
Ø 另一种中心趋势度量是众数。数据集的众数是集合中出现频率最高的值。可能最高频率对应多个不同值,导致多个众数。数据集的具有一个、两个或三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。
Ø 对于倾斜的(非对称的)单峰频率曲线,我们有下面的经验关系

(2-4)

这意味着如果均值和中位数已知,适度倾斜的单峰频率曲线的众数容易计算。
Ø 在 完全对称的数据分布单峰频率曲线中,均值、中位数和众数都是相同的中心值,如图2-2a所示。然而,在大部分实际应用中数据不是对称的。它们可能是正倾斜 的,其中众数出现在小于中位数的值上(图2-2b);或者是负倾斜的,其中众数出现在大于中位数的值上(图2-2c)。

图2-2 对称与正倾斜和负倾斜数据的中位数、均值和众数
 
Ø 中列数也可以用来评估数据集的中心趋势。中列数是数据集的最大和最小值的平均值。中列数是代数度量,因为它容易使用SQL的聚集函数max()和min()计算。
 
2.2.2 度量数据的离散程度
Ø 数值数据趋向于分散的程度称为数据的离差或方差。数据离中趋势的最常用度量是极差五数概括(基于四分位数)中间四分位数极差标准差盒图根据五数概括绘制,是一种识别离群点的有用工具。
Ø 设x1,x2,…,xN是某属性的观测值集合。该集合的极差(range)是最大值(max())与最小值(min())之差。本节的其余部分假定数据以数值递增序排列。
Ø 在数值序下,数据集合的k个百分位数(percentile是具有如下性质的值xi:百分之k的数据项位于或低于xi。
n 中位数(上一节讨论过)是第50个百分位数。
n 除中位数外,最常用的百分位数是四分位数(quartile第一个四分位数记作Q1,是第25个百分位数;第三个四分位数记作Q3,是第75个百分位数。四分位数(包括中位数)给出分布的中心、离散和形状的某种指示。第一个和第三个四分位数之间的距离是分布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为中间四分位数极差(IQR,定义为IQR = Q3Q1
n 根据类似于2.2.1节中位数分析的推理,可以断言Q1和Q3是整体度量,IQR也是。
Ø 描述倾斜分布,单个分布数值度量(如IQR)不是非常有用的。倾斜分布两边的分布是不等的(图2-2)。因此,提供两个四分位数Q1和Q3以及中位数信息更丰富。一个识别可疑的离群点的常用经验是:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值

Ø 因为Q1、中位数和Q3不包含数据端点(例如尾)信息,分布形状的更完整概括可以通过提供最高和最低数据值得到。这称作五数概括。分布的五数概括(five-number summary中位数,四分位数Q1Q3,最小和最大观测值组成,按以下次序写为Minimum, Q1, Median, Q3, Maximum

Ø 分布的一种流行的可视化表示是盒图(boxplot。盒图体现了五数概括:
n 在典型情况下,盒的端点在四分位数上使得盒的长度是中间四分位数极差IQR。
n 中位数用盒内的线标记。
n 盒外的两条线(称作胡须)延伸到最小(Minimum)和最大(Maximum)观测值。

图2-3 在给定的时间段 AllElectronics的4个分店销售的商品单价的盒图
 

Ø 当 处理数量适中的观测值时,值得个别地绘出潜在的离群点。在盒图中这样做:仅当这些值超过四分位数不到1.5×IQR时,胡须扩展到最高和最低观测值。否 则,胡须出现在四分位数的1.5×IQR之内的最极端的观测值处终止。剩下的情况个别地绘出。盒图可以用来比较若干个可比数据集。图2-3给出在给定的时 间段, AllElectronics的4个分店销售的商品单价数据的盒图。对于分店1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100 美元。注意,该分店的两个边远的观测值个别地绘制,因为它们的值175和202超过IQR的1.5倍,这里IQR = 40。对于大型数据集的挖掘,盒图的有效计算,甚至是近似的盒图(基于五数概括的近似)仍然是一个具有挑战性的问题。

Ø N个观测值x1,x2,…,xN方差是

 (2-6)

其中,是观测值的均值。标准差σ是方差σ2的平方根。

Ø 作为发散性的度量,标准差ơ的基本性质是
n ơ度量关于均值的发散,仅当选择均值作为中心度量时使用。
n 仅当不存在发散时,即当所有的观测值都具有相同值时,ơ = 0;否则,ơ> 0。
Ø 方差和标准差是代数度量,因为它们可以由分布度量计算。即,N(SQL的count())、Sxi(xi的sum())和Sxi2(xi2的sum())可以按任意划分进行计算,然后合并提供给式(2-6)。这样,方差和标准差的计算在大型数据库都是可伸缩的。
 
 
2008年7月6日 星期日
2.2.3 基本描述数据汇总的图形显示
Ø 除了在大部分统计或图形数据表示软件包中使用的条形图、饼图和线图之外,还有一些常用的图用于显示数据汇总和分布,包括直方图、分位数图、q-q图、散布图和局部回归(loess)曲线。对于数据的直观观察,这些图是非常有帮助的。

表2-1 AllElectronics的一个分店销售的商品单价数据集

图2-4 表2-1中数据集的直方图
 

Ø 分位数图(quantile plot是一种观察单变量数据分布的简单有效方法。每个观测值xi与一个百分数fi配对,指出大约100fi%的数据小于或等于xi。我们说“大约”,因为可能没有一个精确的小数值fi,使得数据的fi%小于或等于xi。注意,0.25分位数对应于四分位数Q1,0.50分位数对应于中位数,而0.75分位数对应于Q3。

Ø 分位数-分位数图或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个是否有移位。

Ø 散布图(scatter plot是确定两个数值属性之间看上去是否有联系、模式或趋势的最有效的图形方法之一。为构造散布图,每个值对视为一个代数坐标对,并作为一个点画在平面上。图2-7显示表2-1中数据集的散布图。散布图是一种观察双变量数据有用的方法,用于观察点的簇和离群点,或考察相关联系的可能性。在图2-8中,我们看到两个不同数据集中两个属性之间的正相关和负相关的例子。图2-9显示了三种情况,每个数据集的两个属性之间都不存在相关联系。

Ø 在处理多个属性时,散布图矩阵(scatter-plot matrix是 散布图的一种有用的扩充。给定n个属性,散布图矩阵是散布图的n×n栅格,提供每个属性(或维)与每个其他属性的可视化表示。随着所研究的属性数量增加, 散布图的有效性降低。在这种情况下,用必要进行诸如放大(zooming)和摇动(panning)等用户交互操作,帮助有效地解释单个散布图。
Ø loess曲线是另一种重要的图形探查工具,它添加一条光滑曲线到散布图,以便更好地理解依赖模式。loess一词是“局部回归”(local regression的缩写。图2-10显示表2-1中数据集的loess曲线。
Ø 为了拟合loess曲线,需要设置两个参数—光滑参数a,被回归拟合的多项式的次数la可以是正数(典型值在1/41之间),而l可以是12。 选择a的目的是产生一个拟合,它尽可能光滑,而不过分破坏数据中潜在的模式。曲线随a增大而变得更光滑。然而,可能出现拟合不足,表明可能“丢失”数据模 式。如果a太小,跟踪了潜在的模式,但可能过分拟合数据,曲线中的局部“摆动”可能不被数据支持。如果数据的潜在模式具有“温和的”曲率,而没有局部极大 和极小,则局部线性拟合通常就足够了(l = 1)。然而,如果存在局部极大和极小,则二次拟合(l = 2)一般做得更好,它遵循数据模式并且保持局部光滑性。

posted on 2008-08-02 19:03  itolssy  阅读(1882)  评论(0编辑  收藏  举报

导航