数据挖掘概念与技术(韩家伟)阅读笔记1
1.什么是数据挖掘
指从大量数据中提取或“挖掘”知识。
2.数据挖掘与知识发现
知识发现的迭代序列包括:数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示。在实际使用过程中,数据挖掘可代替知识发现一次使用。
3.数据存储库
(1)关系数据库。表的汇集,每个表都有唯一的名字。每个表包含一组属性,存放大量的元祖,每个元祖代表一个对象,被唯一的关键字识别,并被一组属性描述。
(2)数据仓库。一个从多个数据源收集的信息存储库,存放在一个一致的模式下,并且通常滞留在一个站点。数据仓库通过数据清理,数据变换,数据集成,数据装入和定期数据刷新过程来构造。
数据仓库用多维数据库结构建模,每个维对应模式中的一个或一组属性,每个单元存储某种聚集度量值。
(3)事务数据库。由一个文件组成每个记录代表一个事务,有唯一的事务标识号。
事务ID | 商品ID的列表 |
001 | I1,I2,I3 |
由于商品ID的列表包含嵌套关系,所以大部分的关系数据库不支持,所以事务数据库通常保存在一个类似于上表的表格式文件中。不过也可以对该表进行展开分成多个元祖装入关系数据库。
(4)高级数据库系统
新的数据库应用:处理空间数据,工程设计数据(建筑设计,系统部件,集成电路等),超文本和多媒体数据,时间相关数据,流数据以及万维网。
a.对象-关系数据库。把每一个实体看做一个对象,设计一个对象的数据和代码封装在一个单元中。
b.时间,序列,时间序列数据库。
c.空间,时间空间数据库。
d.异构数据库和遗产数据库。
4.数据仓库与数据集市
数据仓库收集了跨部门的整个组织的主题信息,是企业范围的;数据集市是数据仓库的一个部分,是部门范围的。
5.联机分析处理(OLAP)
OLAP操作包括下钻和上卷
下钻:对数据仓库某属性进行拆分(拆分季度得到月)得到新数据仓库该维上的新属性。
上卷,按某种规则对原数据仓库上的某种属性进行聚合,(例按国家对城市分类形成国家的组合)。
6.概念/类描述:特征化和区分
类/概念描述:数据通常与类或概念相关联:销售的商品类包括计算机和打印机。
手段:特征化:目标类数据的一般特性或特性的汇总:研究上一年销售增加10%的产品的特征。
区分:目标类数据的一般特性与一个或多个对比类一般特性比较。
7.频繁模式,关联和相关
频繁模式:项集,子序列,子结构
关联分析:X=》Y。支持度:在所有的事务中该事务发生的可能性。置信度:在X发生的条件下,Y发生的概率。
8.分类和预测
分类:找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类(找出模型)。
模型的表现形式:分类规则,决策树,数据公式和神经网络。
预测:建立连续值函数模型。
分类主要就是找出模型,对数据按照模型进行分类。分类:对类标号未知的数据找到类标号。
预测主要是建立函数。根据现有的数据进行分析得到函数,从而能够在不同条件下,预测可能得到的结果。
9.聚类分析
根据最大化类内部的相似性,最小化类之间的相似性规则进行分组。
10.离群点分析
找出与模型不一致的数据。
11.演变分析
描述行为随时间变化的对象的规律和趋势,并对其进行建模。
12.数据挖掘的主要问题
性能问题:
a>数据挖掘算法的有效性和可伸缩性:数据挖掘算法在大型数据库中的运行时间必须是可接受的和可预计的。
b>并行,分布和增量挖掘算法。计算复杂性的降低。
数据库类型的多样性:
a>关系和复杂数据类型处理。数据类型的多样性和数据挖掘目标不同。
b>从异构数据库和全球信息系统挖掘信息。从不同数据语义的结构化的,半结构化的和非结构化的不同数据源发现知识。