Fork me on GitHub

数据挖掘导论-第2章数据

数据

  1. 数据类型
  2. 数据的质量
  3. 使数据适合挖掘的预处理步骤
  4. 根据数据联系分析数据

2.1 数据类型

  • 定义:通常,数据集可以看作数据对象的集合。数据对象有时也叫记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组属性刻画对象的基本特性(如物体质量或事件发生时间)。属性有时也称变量、特性、字段、特征或维

2.1.1属性与度量

1. 什么是属性?

  • 定义2.1:属性是对象的性质或特性,它因对象而异,或随时间而变化
    例如:眼球的颜色因人而已,而物体的温度随时间而变;注意:眼球颜色是一种符号属性,具有少量可能的值,而温度是数值属性,可以取无穷多个值
  • 定义2.2:测量标度是将数值或符号值与对象的属性相关联的规则(函数);也就是将对象属性的“物理值”映射为数值或是符号值

2. 属性类型

  • 属性的性质不必与用来度量它的值的性质相同
    例如:雇员年龄和ID号,这两个属性都可以用整数来表示,但是讨论雇员的平均年龄是有意义的,而ID号则是没有意义的

3. 属性的不同类型

  • 一种指定属性类型的有用(和简单)的办法是,确定对应于属性基本性质的数值的性质,数值的如下性质(操作)常常用来描述属性:
    1. 相异性:=和!=
    2. :<,<=,>和>=
    3. 加法:+和-
    4. 乘法: *和/
  • 给定这些性质,我们可以给定四种属性类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)
  • 每种属性类型拥有其上方属性类型上的所有性质和操作,也就是属性类型的定义是累积的(类似继承,上方不一定可以适用其下方的属性类型)


  • 标称和序数属性统称分类的定性的属性。定性属性具有数的大部分性质,应当像对待符号一样对待它们
  • 区间和比率统称为定量的数值的属性,具有数的大部分性质,定量属性可以是整数值连续值


    属性变换
  • 属性的类型也可以用不改变属性意义的变换来描述
  • 对特定的属性类型有意义的统计操作是这样一些操作,当使用保持属性意义的变换对属性进行变换时,它们产生的结果相同


4. 用值的个数描述属性

  • 区分属性的一种独立方法时根据属性可能取值的个数来判断
    1. 离散的(discrete):离散属性具有有限个值无限可数个值,这样的属性可以是分类的,也可以是数值的
      • 通常,离散属性用整数变量表示
      • 二元属性是离散属性的一种特殊情况,并只接受两个值,比如真/假,通常,二元属性用布尔变量来表示
    2. 连续的(continuous):连续属性是取实数值的属性,如温度、高度或重量等属性。
      • 通常,连续属性用浮点变量表示。实际中,实数值只能用有限的精度测量和表示
  • 通常,标称和序数属性是二元的或离散的,而区间和比率属性是连续的,然而,计数属性是离散的,也是比率属性

5. 非对称的属性

  • 对于非对称的属性,出现非零属性值才是重要的
  • 只有非零值才重要的二元属性是非对称的二元属性

2.1.2 数据集的类型

  • 我们将数据集类型分成三组:记录数据,基于图形的数据和有序的数据,这些分类不能涵盖所有的可能性

1. 数据集的一般特性

  1. 维度:数据集的维度是数据集中的对象具有的属性数目,分析高维数据有时会陷入所谓维灾难,因此,数据预处理的一个重要动机就是减少维度,称为维归约
  2. 稀疏性:有些数据集,如具有非对称特征的数据集,一个对象的大部分属性上的值都为0;在许多情况下,非零项还不到1%
  3. 分辨率:常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同
    • 数据的模式也依赖于分辨率,如果分辨率太高,模式可能看不出,或者掩埋在噪声中;如果分辨率太低,模式可能不出现

2. 记录数据

  • 许多数据挖掘任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集
posted @ 2019-12-03 14:51  天上掉下个小馅饼  阅读(556)  评论(0)    收藏  举报