《数据挖掘导论》学习笔记（一）

四种主要的数据挖掘任务：

　1、预测建模任务

　2、关联分析

　3、聚类分析

　4、异常检测

主要的数据质量问题：存在噪声和离群点，数据遗漏、不一致或重复，数据有偏差，或者在别的方面，数据不代表描述所设想的现象或总体情况。

测量标度：将数值或符号值与对象的属性相关联的规则（函数），通常将属性的类型称为测量标度的类型

数据集主要分为三类：记录数据，基于图形的数据、有序的数据

一般数据集的三个特性：

记录数据的不同类型：

基于图形的数据：

有序数据：

数据清理：对数据质量问题的检测和纠正

抽样：数据挖掘处理所有的数据的费用太高，太费时间，因此使用抽样的算法可以压缩数据量，从而可以使用更好但开销更大的算法

特征子集的选择有三个标准选择方法：

特征创建：可以有原来的属性创建新的属性集，新的属性集可能比原有的要少，主要三种方法

相似性和相异性的度量

欧几里德距离是指多维空间两点间的距离，这是一种用直尺测量出来的距离。

如果将两个点分别标记为(p1,p2,p3....pn)和(q1,q2,q3.....qn),则欧几里德距离的计算公式为：

欧几里得公式的性质：

对于两个有n个二元属性的对象x和y来说，可以用简单匹配系数，公式为

　　SMC=（值匹配的属性个数/属性个数）=（f₁₁+f00）/(f00 + f10 + f01 + f11) 其中f11表示x取1并且y取1的属性个数，其他类推

对于非对称的二元属性，则用Jaccard系数来处理，忽略0-0匹配

对于文档相似性，用余弦相似度处理

如果余弦相似度为1，则除大小外，x和y是相同的，如果余弦相似度为0，则他们不包含任何相似的词

posted @ 2016-10-23 15:25 kinsomy 阅读(1841) 评论(0) 收藏举报

刷新页面返回顶部

kinsomy