什么事数据对象以及属性分为什么类型?

数据对象与属性类型

  数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售;在医疗数据库中,对象可以是患者;在大学的数据库中,对象可以是学生、教授和课程。
   通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中,则它们是数据元组。也就是说,数据库的行对应于数据对象,而列对应于属性。本节,我们定义属性,并且考察各种属性类型。

什么是属性?

    属性(attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维( dimension)、特征(feature)和变量(variable)可以互换地使用。术语“维”一般用在数据仓库中。机器学习文献更倾向于使用术语“特征”,而统计学家则更愿意使用术语“变量”。数据挖掘和数据库的专业人士一般使用术语“属性”,我们也使用术语“属性”。例如,描述顾客对象的属性可能包括customer_ ID , nam。和address。给定属性的观测值称做观测。用来描述一个给定对象的一组属性称做属性向量(或特征向量)。涉及一个属性(或变量)的数据分布称做单变量的(univariate )。双变量(bivariate)分布涉及两个属性,等等。
    一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。下面我们介绍每种类型。

属性类型:


- 标称属性

    标称意味“与名称相关”。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical )。这些值不必具有有意义的序。在计算机科学中,这些值也被看做是枚举的(enumeration )

例: 假设hair_ color(头发颜色)和marital_ status(婚姻状况)是两个描述人的属性。在我们的应用中,hair color的可能值为黑色、棕色、淡黄色、红色、赤揭色、灰色和白色。属性。aritaL_ status的取值可以是单身、已婚、离异和丧偶。hair_ color和maritalstatus都是标称属性。标称属性的另一个例子是occupation(职业),具有值教师、牙医、程序员、农民等。

   因为标称属性值并不具有有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或中位数(中值)没有意义。然而,一件有意义的事情是使该属性最常出现的值,这个值称为众数(mode ),是一种中心趋势度量。


- 二元属性

   二元属性(binary attribute)是一种标称属性,只有两个类别或状态:0或I,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true。和false的话。

例: 倘若属性:cooker描述患者对象,1表示患者抽烟,0表示患者不抽烟。类似地,假设患者进行具有两种可能结果的医学化验。属性medical_ test是二元的,其中值1表示患者的化验结果为阳性,0表示结果为阴性。


- 序数属性

   序数属性(ordinal attribute)是一种属性,其可能的值之间具有有意义的序或秩评定( ranking ),但是相继值之间的差是未知的。

例: 假设drink_ size对应于快食店供应的饮料量。这个标称属性具有3个可能的值—小、中、大。这些值具有有意义的先后次序(对应于递增的饮料量)。然而,例如我们不能说“大”比“中”大多少。序数属性的其他例子包括grade(成绩,例如A+, A, A一、B+等)和professional_ rank(职位)。职位可以按顺序枚举,如对于教师有助教、讲师、副教授和教授,对于军阶有列兵、一等兵、专业军士、下士、中士等。
   对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。在一项调查中,作为顾客,参与者被要求评定他们的满意程度。顾客的满意巨叭.才片1度有如下序数类别:0—很不满意,1—不太满意,2—中性,3—满意,4满意。

注意,标称、二元和序数属性都是定性的。即,它们描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常是代表类别的词。如果使用整数,则它们代表类别的计算机编码,而不是可测量的量(例如,0表示小杯饮料,1表示中号杯,2表示大杯)。

-数值属性

   数值属性(numeric attribute)是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

  • 1.区间标度属性

   区间标度(interval- scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。因此,除了值的秩评定之外,这种属性允许我们比较和定量评估值之间的差。

例: temperature(温度)属性是区间标度的。假设我们有许多天的室外温度值,其中每天是一个对象。把这些值排序,则我们得到这些对象关于温度的秩评定。此外,我们还可以量化不同值之间的差。例如,温度20℃比5℃高出15 0C。日历日期是另一个例子。例如,2002年与2010年相差8年。

  • 2.比率标度属性

   比率标度(ratio- scaled)属性是具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。此外,这些值是有序的,因此我们可以计算值之间的差,也能计算均值、中位数和众数。

例: 不像摄氏和华氏温度,开氏温标(K)具有绝对零点(00K =-273. 150C ):在该点,构成物质的粒子具有零动能。比率标度属性的其他例子包括诸如工作年限(例如,对象是雇员)和字数(对象是文档)等计数属性。其他例子包括度量重量、高度、速度和货币量(例如,100美元比1美元富有100倍)的属性。.


-离散属性与连续属性

   我们已经把属性分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型,这些类型不是互斥的。
   机器学习领域开发的分类算法通常把属性分成离散的或连续的。每种类型都可以用不同的方法处理。离散属性具有有限或无限可数个值,可以用或不用整数表示。属性hair color,smoker, medical一 test和drink size都有有限个值,因此是离散的。注意,离散属性可以具有数值值。如对于二元属性取0和1,对一于年龄属性取0到110。如果一个属性可能的值集合是无限的,但是可以建立一个与自然数的一一对应,则这个属性是无限可数的。例如,属性customerwe ID是无限可数的。顾客数量是无限增长的,但事实上实际的值集合是可数的(可以建立这些值与整数集合的一一对应)。邮政编码是另一个例子。
   如果属性不是离散的,则它是连续的。在文献中,术语“数值属性”与“连续属性”通常可以互换地使用。(这可能令人困惑,因为在经典意义下,连续值是实数,而数值值可以是整数或实数。)在实践中,实数值用有限位数字表示。连续属性一般用浮点变量表示。

本文来源:《数据挖掘概念与技术》

posted @ 2017-11-14 17:43  keepgoon  阅读(1797)  评论(0编辑  收藏  举报