数据的基本概念

数据集:数据对象的集合

属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。

测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)

属性的不同类型:

  标称:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。比如:邮政编码,雇员ID,性别。对标称属性的操作有众数,熵,列联相关等。

  序数:序数属性的值提供足够的信息确定对象的序。比如:街道号码,成绩,产品质量(优秀,合格,不合格)。对序数属性的操作有中值,百分位等。

  区间:对于区间属性,值之间的差是有意义的,即存在测量单位。比如:日历日期,摄氏或华氏温度。操作:均值,标准差,皮尔逊相关等。

  比率:对于比率变量,差和比率都是有意义的。比如:绝对温度,货币量。操作:几何平均,调和平均等。

数据集的类型:

  维度:数据集的维度是数据集中的对象具有的属性数目。

  分辨率:常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。

  

posted @ 2015-07-15 21:20  软件心理学工程师  Views(429)  Comments(0Edit  收藏  举报