数据
- 数据类型
- 数据的质量
- 使数据适合挖掘的预处理步骤
- 根据数据联系分析数据
2.1 数据类型
- 定义:通常,数据集可以看作数据对象的集合。数据对象有时也叫记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组属性刻画对象的基本特性(如物体质量或事件发生时间)。属性有时也称变量、特性、字段、特征或维。
2.1.1属性与度量
1. 什么是属性?
- 定义2.1:属性是对象的性质或特性,它因对象而异,或随时间而变化
例如:眼球的颜色因人而已,而物体的温度随时间而变;注意:眼球颜色是一种符号属性,具有少量可能的值,而温度是数值属性,可以取无穷多个值
- 定义2.2:测量标度是将数值或符号值与对象的属性相关联的规则(函数);也就是将对象属性的“物理值”映射为数值或是符号值
2. 属性类型
- 属性的性质不必与用来度量它的值的性质相同
例如:雇员年龄和ID号,这两个属性都可以用整数来表示,但是讨论雇员的平均年龄是有意义的,而ID号则是没有意义的
3. 属性的不同类型
- 一种指定属性类型的有用(和简单)的办法是,确定对应于属性基本性质的数值的性质,数值的如下性质(操作)常常用来描述属性:
- 相异性:=和!=
- 序:<,<=,>和>=
- 加法:+和-
- 乘法: *和/
- 给定这些性质,我们可以给定四种属性类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)
- 每种属性类型拥有其上方属性类型上的所有性质和操作,也就是属性类型的定义是累积的(类似继承,上方不一定可以适用其下方的属性类型)

- 标称和序数属性统称分类的或定性的属性。定性属性不具有数的大部分性质,应当像对待符号一样对待它们
- 区间和比率统称为定量的或数值的属性,具有数的大部分性质,定量属性可以是整数值或连续值
属性变换
- 属性的类型也可以用不改变属性意义的变换来描述
- 对特定的属性类型有意义的统计操作是这样一些操作,当使用保持属性意义的变换对属性进行变换时,它们产生的结果相同

4. 用值的个数描述属性
- 区分属性的一种独立方法时根据属性可能取值的个数来判断
- 离散的(discrete):离散属性具有有限个值或无限可数个值,这样的属性可以是分类的,也可以是数值的
- 通常,离散属性用整数变量表示
- 二元属性是离散属性的一种特殊情况,并只接受两个值,比如真/假,通常,二元属性用布尔变量来表示
- 连续的(continuous):连续属性是取实数值的属性,如温度、高度或重量等属性。
- 通常,连续属性用浮点变量表示。实际中,实数值只能用有限的精度测量和表示
- 通常,标称和序数属性是二元的或离散的,而区间和比率属性是连续的,然而,计数属性是离散的,也是比率属性
5. 非对称的属性
- 对于非对称的属性,出现非零属性值才是重要的
- 只有非零值才重要的二元属性是非对称的二元属性
2.1.2 数据集的类型
- 我们将数据集类型分成三组:记录数据,基于图形的数据和有序的数据,这些分类不能涵盖所有的可能性
1. 数据集的一般特性
- 维度:数据集的维度是数据集中的对象具有的属性数目,分析高维数据有时会陷入所谓维灾难,因此,数据预处理的一个重要动机就是减少维度,称为维归约
- 稀疏性:有些数据集,如具有非对称特征的数据集,一个对象的大部分属性上的值都为0;在许多情况下,非零项还不到1%
- 分辨率:常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。
- 数据的模式也依赖于分辨率,如果分辨率太高,模式可能看不出,或者掩埋在噪声中;如果分辨率太低,模式可能不出现
2. 记录数据
- 许多数据挖掘任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集
posted @
2019-12-03 14:51
天上掉下个小馅饼
阅读(
556)
评论()
收藏
举报