摘要: 相似性和相异性(区别性,不同性) 相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯。相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了。相似性与相异性的转换 相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的,因此理论上任意单调递减的函数... 阅读全文
posted @ 2015-05-12 10:14 曾可爱 阅读(1252) 评论(0) 推荐(0) 编辑
摘要: 上部分讲了些跟数据有关的概念,这部分来聊一聊操作。这里讲的操作其实是对数据预处理的操作。大概有以下这些操作。 数据聚合(Aggregation) 数据取样(Sampling) 数据降维 属性子集选取 构建属性 离散化和二分化属性 变量转换数据聚合 有个思想叫做"less is more",即所谓删繁... 阅读全文
posted @ 2015-05-12 10:05 曾可爱 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 数据数据集通常表示成数据个体(Data Object)的集合。一条数据记录就是一个个体。常见的数据表示方式可以是表格的:Student IDGenderScore1Male42Female53female3.5上表中横向的一行就是一个Data Object了,而 Student ID,Gender,... 阅读全文
posted @ 2015-05-12 10:02 曾可爱 阅读(360) 评论(0) 推荐(0) 编辑