《数据挖掘导论》学习笔记(一)

四种主要的数据挖掘任务:

 1、预测建模任务

  •   分类:用于预测离散的目标变量
  • 回归:用于预测连续的目标变量

 2、关联分析

 3、聚类分析

 4、异常检测

主要的数据质量问题:存在噪声和离群点,数据遗漏、不一致或重复,数据有偏差,或者在别的方面,数据不代表描述所设想的现象或总体情况。

测量标度:将数值或符号值与对象的属性相关联的规则(函数),通常将属性的类型称为测量标度的类型

数据集主要分为三类:记录数据,基于图形的数据、有序的数据

一般数据集的三个特性:

  • 维度:数据集中的对象具有的属性数目,数据预处理的一个重要动机是维规约。 
  • 稀疏性:如具有非对称特征的数据集,只有非零值才需要处理。
  • 分辨率:如果分辨率太高,分类太细,模式可能看不到,或者掩埋在噪声里,如果分辨率太低,模式可能不出现。

记录数据的不同类型:

  • 事物数据或购物篮数据:非关系型数据,例如每个消费者的购物时一条记录,购物车里的所有东西构成数据集
  • 数据矩阵:数据对象看做多维空间中的点,每个维代表描述对象的一个不同属性。
  • 稀疏数据矩阵:文档-词矩阵 

基于图形的数据:

  • 带有对象之间联系的数据,如网页链接
  • 具有图形对象的数据,如化学分子

有序数据:

  • 时序数据,又叫时间数据,每个记录包含与之相关联的时间
  • 序列数据:如基因序列
  • 时间序列数据:如气温时间序列,要考虑时间自相关,时间接近的测量值通常非常相似
  • 空间数据:如不同地理位置的信息,考虑空间自相关性

数据清理:对数据质量问题的检测和纠正

抽样:数据挖掘处理所有的数据的费用太高,太费时间,因此使用抽样的算法可以压缩数据量,从而可以使用更好但开销更大的算法

特征子集的选择有三个标准选择方法:

  • 嵌入方法:在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性。例如构造决策树分类的算法。
  • 过滤方法:使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行之前进行特征选择,例如我们可以选择属性的集合,他的属性对之间的相关度尽可能低。
  • 包装方法:这些方法将目标数据挖掘算法作为黑盒,使用类似于便利所有可能集合的方法,但通常不会全部遍历一次。

特征创建:可以有原来的属性创建新的属性集,新的属性集可能比原有的要少,主要三种方法

  • 特征提取:由原始数据创建新的特征集
  • 映射数据到新的空间:例如对时间序列实施傅里叶变换,小波变换
  • 特征构造:由原始特征构造成新特征

相似性和相异性的度量

  • 相似度:两个对象相似的程度,通常非负的,在0到1之间取值,两个对象越相似相似度就越高
  • 相异度:两个对象差异程度的数值度量,对象越类似,相异度就越低,距离是相异度的同义词

欧几里德距离是指多维空间两点间的距离,这是一种用直尺测量出来的距离。

如果将两个点分别标记为(p1,p2,p3....pn)和(q1,q2,q3.....qn),则欧几里德距离的计算公式为:

欧几里得公式的性质:

  1. 非负性 
    1. 对于所有x和y,d(X,Y)>=0;
    2. 仅当x=y时,d(x,y)=0;
  2. 对称性
    1. 对于所有x和y,d(x,y)=d(y,x)
  3. 三角不等式
    1.   对于所有x,y,z,d(x,z)<=d(x,y)+d(y,z)

对于两个有n个二元属性的对象x和y来说,可以用简单匹配系数,公式为

  SMC=(值匹配的属性个数/属性个数)=(f₁₁+f00)/(f00 + f10 + f01 + f11)  其中f11表示x取1并且y取1的属性个数,其他类推

 

对于非对称的二元属性,则用Jaccard系数来处理,忽略0-0匹配

对于文档相似性,用余弦相似度处理    

如果余弦相似度为1,则除大小外,x和y是相同的,如果余弦相似度为0,则他们不包含任何相似的词

 

posted @ 2016-10-23 15:25  kinsomy  阅读(1806)  评论(0编辑  收藏  举报