数据仓库与数据挖掘技术 陈京民

... 前部分待补

 数据仓库的重要概念

维:  待补

数据立方体:

  当用户观察某一事物的角度不同时,围绕该事物会产生多个观察角度,也就是产生了多维。数据仓库中的多种维交点,就是数据仓库用户所需要观察的事务。例如:数据立方体中由客户、产品、时间三个维所构成的立方体表示哪些客户、在什么地方购买了那些产品。三个维的交点就是所购买产品数量或者价格等事务,也就是立方体的顶点。数据仓库的立方体实际上是一个包含用户需要观察数据的集合体,它提供企业所感兴趣的商业事务。在这里最重要的是购买的产品与价格等信息,这些信息构成了立方体的粒度,即维交叉时所导致的细节等级,如果某个客户购买了某种商品,结果就是一个基本粒度或原子事务。立方体作为基本事务的聚合,是一种适合通过SQL或者他接口进行查询的完整数据结构。一般而言立方体可以转换成星型模型,星型模型也可以转换成立方体。

  在数据仓库的实际应用中,高层的数据聚合存储采用立方体处理,效率较高。而细节为基础,维变化的上卷聚合采用星型模型处理效率更高并且更灵活,

  立方体也称为多维数据集。超过三维的立方体称为超立方体,或超维数据集。

 聚集 :

  聚集或者聚合是指收集了基本事务数据的结构。在一个立方体中包含了很多层次,这些层次可以向用户提供某一层次的概括数据。

 

数据仓库的未来发展 

1.基于关系对象数据库的数据仓库

关系对象数据库的初相使数据仓库设计人员有能力将对象引入数据仓库环境中。

关系数据库参考:http://wiki.ccw.com.cn/%E5%85%B3%E7%B3%BB%E6%95%B0%E6%8D%AE%E5%BA%93

        http://baike.baidu.com/view/68348.htm

2.网络影响

3.操作型数据库仓库,能以一种可以接受的标准对数据仓库进行操作。这些标准包括可预知性、可利用性和可访问性。

4.Web应用技术代理

数据仓库的应用

2类用户:信息使用者,知识挖掘者

数据仓库挖掘者数据分析的4个过程

1.概括分析:首先对数据仓库中的数据外部特征进行分析,确保数据的完整性和准确性,评价是否有充分的样本数据进行数据抽取、建模与分类处理。

  概括分析内容可能有:常来采购的客户性别比例多大?共有多少客户?经常进行采购的客户数量比例情况如何?客户的平均采购标准是多少?

2.数据抽取:根据知识挖掘的需要对数据仓库中的数据进行抽取。按照数据分析的目的,对这些数据进行组织,然后将组织好的数据送入数据集市或者知识挖掘库中。

3.建模分析:使用数据仓库的核心工作,是开发一种用于描述客户、产品或销售商模型的过程。在完成建模分析后,就可以利用所建的模型对数据仓库中的实体与模型的关联程度进行分类分析。

4.分类处理:根据挖掘出来的知识对数据库中的所有数据进行分类。分类的目的是针对不同的事务采取正确的对策,这也是知识挖掘者挖掘知识的最终目的。

 

数据仓库系统结构

 

 

posted @ 2009-05-26 15:55  Vincent Yan  阅读(1084)  评论(0编辑  收藏  举报