代码改变世界

数据挖掘:概念与技术 学习笔记 第一章

2011-06-08 21:33  Aga.J  阅读(3388)  评论(0编辑  收藏  举报

1 数据挖掘进化过程:

数据收集和数据库创建 ---- 数据管理(数据存储,提取,事务处理) --- 数据分析与理解(数据仓库和数据挖掘)

可以使用分层的结构来表示这个进化过程(下层使用上层服务):

clip_image002

2 海量数据 需要 数据挖掘工具进行数据分析, 发现重要的数据模式

3 知识发现的过程:

(1)数据清理(消除噪音或者不一致的数据)

(2)数据集成(多种数据源组合一起)

(3)数据选择(从数据库中提取和分析任务相关的数据)

(4)数据变换(将数据变换成统一的适合挖掘的形式)

(5)数据挖掘(使用智能方法提取数据模式)

(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)

(7)知识表示(可视化知识表示)

4 数据挖掘的广义观点:从存放在数据库,数据仓库或者其他信息库的大量数据中挖掘有趣的知识的过程

5 依据4的数据挖掘观点,一个典型的数据挖掘系统主要由以下几部分组成

(1)数据库,数据仓库,信息库

(2)数据库或者数据仓库服务器:提取相关数据

(3)知识库:领域知识,负责指导搜索

(4)数据挖掘引擎

(5)模式评估模块

(6)图形用户界面

clip_image004

6 数据来源,也就是说数据挖掘是在什么样的数据上进行

(1)关系数据库

(2)数据仓库(多数据源,一致模式,单点,数据清理等)

clip_image006

使用多维数据库结构建模,每个维对应模式中一个或者一组属性。

clip_image008

(3)事务数据库

由一个文件组成,其中每个记录代表一个事务,一个事务包含一个唯一的事务标识,支持嵌套关系

clip_image010

(4)先进数据库系统

先进数据库系统或者特殊数据库系统面向处理

空间数据(图像像素点,向量),

工程设计数据

超文本和多媒体数据(非结构化,半结构化,良构等,图像,视频,音频)

时间相关数据(时间标签,演化及变化趋势)

异种数据库(由互联,自治的成员数据库组成)

万维网数据(链接数据对象,非结构化,难以理解的数据结构)

(5)展平文件

(6)WWW

7 数据挖掘系统要能够挖掘多种类型的模式,同时要求可以发现不同粒度的模式,以适应不同的用户需求。下面介绍数据挖掘可以发现的模式类型

(1)特征和区分

数据特征是目标类数据的一般特征或特性的汇总。通常通过简单的数据库查询收集,这种特征归纳或者汇总的方式使用一种面向属性的归纳技术来进行,最后将数据进行泛化和特征化。

数据区分是将目标类对象的一般特性和一个或多个对比类对象的一般特性相比较。

(2)关联分析

关联分析发现关联规则,这些规则展示 属性-值 频繁在给定数据集中一起出现的条件。

关联规则形如 X=>Y, 即 A1 and A2….=> B1 and B2…其中A和B是属性值对。

clip_image012

(3)分类和预测

分类是这样的过程,它找到描述或者识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知对象,导出模型是基于对训练数据集(即已标号的对象)的分析。

导出模型可以用多种形式表示:IF-THEN规则,判定树,数据公式,神经网络。

【 判定树 类似流程图的结构,每个节点代表一个属性值上的测试,每个分支代表测试的一个输出, 树叶代表类或类的分布,很容易转换为分类规则】

(4)聚类分析

聚类分析数据对象,而不考虑已知的类标号。也就是说训练数据中不提供类标号,二是利用聚类来产生这种标号,对象根据最大化类内的相似性,最小化类间的相似性的原则来进行聚类或分组

clip_image014 clip_image016

(5)局外者分析

罕见的事件可能比正规出现的那些更加有趣,局外者数据分析成为局外者挖掘

局外者可以使用统计试验检测,它假定一个数据分布或概率模型,使用距离度量,到其他聚类的距离很大的对象被视为局外者。

(6)演变分析

数据演变分析描述行为随着时间变化的对象的规律或趋势,并对其建模。

8 什么样的模式对于客户来说才是有趣的

(1)可以使用客观度量来发现有趣的模式,所谓客观度量可以是规则的置信度

(2)除了客观的度量外,还需要主观兴趣度量,是基于客户的,反映客户特定需求的的度量。

9 数据挖掘系统的分类

clip_image018

(1) 根据挖掘的数据库类型分类:因为数据库系统本身可以根据不同的标准分类,所以需要有自己一套数据挖掘技术,这样一来,我们就可以有 关系型,事务型,面向对象型,对象-关系型,数据仓库型的数据挖掘系统。

(2) 根据挖掘的知识类型分类:如特征,区分,关联,聚类,局外者,趋势,演化分析,偏差分析,类似性分析。 还可以根据挖掘的知识的粒度或抽象层进行区分:泛化知识(高抽象层),原始层知识(原始数据层),多层知识(若干抽象层)。

(3) 根据所用的技术分类: 自动,交互,查询驱动,机器学习,神经网络,模式识别

(4) 根据应用分类:适用场合

clip_image020