数据挖掘导论笔记之探索数据
鸢尾花
鸢尾花(Iris)数据集可以从加州大学欧文分校(UCI)的机器学习库中获取,包含150种鸢尾花的信息,每50种取自三个原味鸢尾花种之一:Setosa、Versicolour和Virgincia。每个花的特征用下面5种属性描述。
萼片长度(厘米)
萼片宽度 (厘米)
花瓣长度(厘米)
花瓣宽度(厘米)
类 (Setosa、Versicolour和Virgincia)
花的萼片是花的外部结构,保护花的更脆弱的部分。在许多花中,萼片是绿的,只有花瓣是鲜艳多彩的,然而,对于鸢尾花,萼片也是鲜艳多彩的
汇总统计
汇总统计是量化的,用单个数或数的小集合捕获可能很大的值的各种特征。汇总统计的。鸢尾花数据集和类属性具有相同的频率,因而中枢的概念并无意义。
众数的意义
对于连续数据,众数没有意义,但是众数可能提供关于值的性质或者关于出现遗漏值的重要信息。
位置度量-百分位数
给定一个有序的或连续的属性x和0与100之间的那数p,第p个百分位数Xp是一个x值,使得x的p%观测值小于Xp。统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。百分是位于按一定顺序排列的一组数据中某一百分位置的数值。一般用Pp表示。如第70百分位数(P70),就是在按从小到大排列的一组数据中小于这数值有70%个频数,大于这个数值有30%个频数的那个数值。中位数就是第50百分位数。小于它有50%个频数,大于它也有50%个频数。它是百分位数中的特例。
截断均值
指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得到的结果是。中位数是p=100%时的截断均值,而标准值是对应于p=0%的截断均值。
散布度量-极差和方差
极差:range(x)=max(x)-min(x)=xm-x1
绝对平均偏差 AAD 中位数绝对偏差(MAD) 四分位数极差(IQR)
散布图
散步图具有两个作用,其一,它们图形化的显示两个属性之间的关系,判定线性相关程度。直接使用散布图,或者使用变换后属性的散布图,也可以判定非线性关系。其二,当类标号给出时,可以使用散布图考察两个属性将类分开的程度
ACCENT原则
理解。正确察觉变量之间关系的能力,图形能够最大化对变量之间的关系的理解
清晰性。以目视识别图形中所有元素的能力,最重要的元素或关系在视觉上最突出
- 一致性。根据与以前的图形相似性理解图形的能力。
有效性。用尽可能简单的方法描绘复杂关系的能力。
必要性。对图形和图形元素的需要。与其它替代方法相比,图形是提供数据的更有用的形式。
真实性。通过图形元素相对于隐式或显式尺度的大小,确定图形元素所代表的真实值的能力。
Tuffe指南
图形的优点是感兴趣的。
图形的优点包括与清晰性、精确性和有效性相关的复杂思想。
图形的优点是它在最小空间内以最少的笔墨在最短时间内为观察者提供最多的信息。
图形的优点总是多元的。
图形的优点需要表述数据的真实性。