数据的基本概念
数据集:数据对象的集合
属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。
测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)
属性的不同类型:
标称:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。比如:邮政编码,雇员ID,性别。对标称属性的操作有众数,熵,列联相关等。
序数:序数属性的值提供足够的信息确定对象的序。比如:街道号码,成绩,产品质量(优秀,合格,不合格)。对序数属性的操作有中值,百分位等。
区间:对于区间属性,值之间的差是有意义的,即存在测量单位。比如:日历日期,摄氏或华氏温度。操作:均值,标准差,皮尔逊相关等。
比率:对于比率变量,差和比率都是有意义的。比如:绝对温度,货币量。操作:几何平均,调和平均等。
数据集的类型:
维度:数据集的维度是数据集中的对象具有的属性数目。
分辨率:常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。