数据挖掘概念与技术11--数据仓库的实现
1.数据立方体的有效计算
a.方体总数=∏(Li+1)(1<=i<=n)。其中Li为每个维的层数,n为维数。
b.方体的计算选择。
不物化:不预计算任何“非基本”方体。
完全物化:预计算所有方体,但是需要花费海量的空间来存储。
部分物化:有选择的计算方体的一个自己。
c.索引OLAP数据
为了提供有效的数据访问,数据仓库支持索引结构和物化视图即上面所述。对OLAP数据进行索引可以通过位图索引和连接索引来进行。
位图索引;允许在数据立方体中进行快速的搜索。对于某一属性的位图索引表,表的每项包括n个位,n为该属性可能取的最大值。每个位的值为1(表示当前属性取该值)或0(当前属性不取该值).
连接索引:类似于关系数据库中的两个实体表之间的关系表。用于将它们连接起来。
2.三种数据仓库的应用
(1)信息处理:支持查询和基本的统计分析,并使用交叉表,图表,表进行报告。
(2)分析处理:支持基本的OLAP操作,包括上卷,下钻,切片和切块等。注:::联机分析处理的优势在于能够支持数据仓库数据的多维数据分析。
(3)数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,并进行分类和预测等。
通过以上也可以看出信息处理,联机分析处理(OLAP),数据挖掘三者的关系。
信息处理基于查询,可以发现有用的信息,但是这部分信息直接反应的是存储在数据库中的信息(或通过聚集函数得到),不反映复杂的模式和隐藏在数据间的规律。
联机分析处理与数据挖掘之间的区别:
(1)联机分析处理反映数据在不同粒度上汇总/聚集工具,帮助简化数据分析,目的在于简化和支持交互数据分析,数据挖掘的目的在于尽可能的自动处理。
(2)联机分析处理在于一般的数据描述。而数据挖掘包括数据描述和数据建模,它不仅执行数据汇总比较,而且还执行关联,预测,聚类,时间序列分析等。
(3)数据挖掘不仅分析存放在数据仓库中的数据,,还可以分析比数据仓库提供的汇总数据粒度更细的数据。他还可以分事务物的,空间的,文本的,媒体的数据。
3.联机分析挖掘(OLAM)
将联机分析处理,数据挖掘,以及在多维数据库中发现知识集成在一起。