数据挖掘(二) 认识数据

要进行数据挖掘,首先我们要知道什么是数据、数据集,有哪些数据类型

数据集

  在数据库中,我们存储的一个数据库表(table)就是一个数据集,数据表的每一行就是一个数据对象(就是一条信息),数据表的列就是数据的属性(用来解释每一个数据代表什么含义)

数据(属性)类型

标称

  标称类型的数据与该数据的名称(就是上文中的数据属性)有关,它的值是一些符号或是事物的名称。数据值代表某种类别、编码或状态,因此标称属性又被看作是分类的,这些数据值不具有有意义的序,在计算机科学中,这些值也被看做是枚举的。在标称属性上,数据运算是没有意义的。

  e.g:头发颜色 = {黑色,棕色,金色,红色,灰色,白色};婚姻状况 = {已婚、未婚、离婚};职业;身份证号;邮政编码

二进制

  二进制类型的数据也是一种标称数据,只不过它只有0和1两个值。

  e.g:性别 = {0(表示男),1(表示女)},新型冠状病毒肺炎测试 = {0(阴性), 1(阳性)}

序数

  序数类型的数据,其可能只具有有意义的序或评定(ranking),但是相继值之间的差是未知的,具有先后顺序。(价值观上有一个有意义的顺序(排名),但不知道连续值之间的大小)序数类型的数据可以通过把数值量的值域划分成有限个有序类别,把数值属性离散化而得到。序数属性的中心趋势可以用它的众数和中位数(有序序列的中间值)表示,但不能定义均值

  e.g:大小 = {小,中,大},等级,排名

区间标度

  区间标度属性:用一单位长度顺序性度量,值有序(比如温度、日历等),不存在0点,倍数没有意义,比如我们平常通常不说2000年时1000年的2倍

  e.g:年份等

比率标度

  具有固定零点的数据类型,可以进行数值运算

  e.g:长度、重量等

小结:

PS:离散属性 VS 连续属性

离散属性:有限或无限可数个值,常表示为整数变量,二元属性时离散属性的特例

     e.g:邮政编码,计数

连续属性:属性值为实数。实践中,实数只能用有限位数字的数度量和表示,两虚属性一般用浮点变量表示

     e.g:温度、高度、重量

posted @ 2022-05-08 20:55  swsyya  阅读(289)  评论(0编辑  收藏  举报

回到顶部