- OLAP(联机分析处理)与DM(数据挖掘)都是数据库(数据仓库)的分析工具,在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。前者建立在多维视图的基础之上,强调执行效率和对用户命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式(Patterns),一般并不过多考虑执行效率和响应速度。OLAM——OnLine Analytical Mining是二者相结合的产物,又称为OLAP Mining,目前是学术界研究的一大热点。本文在简单介绍OLAP和数据挖掘的基础上,重点讨论OLAM的发展动力、体系结构及发展前景。
OLAP与数据挖掘 - OLAP主要有两个特点,一是在线性(On-Line),体现为对用户请求的快速响应和交互式操作,它的实现是由Client/Server这种体系结构来完成的;二是多维分析(Multi_Analysis),这也是OLAP技术的核心所在。
-
- 目前,针对OLAP技术的研究领域相当活跃,对OLAP的理解也不断深入。有人提出了OLAP的更为简洁的定义,如Nigel Pendse提出的FASMI(Fast Analysis Of Shared Multidimensional Information)。他将OLAP所满足的特点用五个词来描述:Fast:对用户请求的快速响应;Analysis:可以应用多种统计分析工具、算法对数据进行分析;Shared:多个用户同时存取数据时,保证系统的安全性;Multidimensional:体现了OLAP应用多维的实质;Information:指应用所需的数据及其导出信息。
-
- DM(Data Mining),或者说KDD,是从大量原始数据中抽取模式的一个处理过程,抽取出来的模式就是所谓的知识,必须具备可信、新颖、有效和易于理解这四个特点。
OLAM——OLAP Mining - OLAP+数据挖掘=OLAM 从以上的分析中我们可以发现,OLAP和DM虽然都是数据库(数据仓库)的分析工具,但其应用范围和侧重点是不同的。
-
- OLAP的在线性体现在与用户的交互和快速响应,多维性则体现在它建立在多维视图的基础上。用户积极参与分析过程,动态地提出分析要求、选择分析算法,对数据进行由浅及深的分析。
-
- DM与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化是说,其分析过程不需要用户的参与,这是它的优点,也正是它的不足,因为在实际中,用户也希望参与到挖掘中来,如只想对数据的某一子集进行挖掘,以及对不同抽取、集成水平的数据进行挖掘,还有想根据自己的需要动态选择挖掘算法等等。
-
- 由此可见,OLAP与DM各有所长,如果能将二者结合起来,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术,将更能适应实际的需要。而OLAM(Online Analytical Mining或OLAP Mining),正是这种结合的产物。
-
- 发展OLAM的原始驱动力有以下几点:
- (1) Data Mining工具需要的数据是一些经过净化、集成处理的数据,通常这种处理过程也是昂贵的;而DW(Data Warehouse,数据仓库)作为OLAP的数据源,存储的就是这样的数据。它能为OLAP提供数据,当然也可以为DM提供数据;
-
- (2) DW是一项崭新的技术,很多人在研究它。围绕着它有许多工具或是体系结构。而DM作为数据分析工具的一种,不是孤立的,也必然要与其他的工具发生联系。因此,考虑到如何最大限度地利用这些现成的工具,也是OLAM发展之初所关心的问题;
-
- (3) 成功的数据挖掘需要对数据进行钻探性(exporatory)分析,比如,挖掘所需的数据可能只是一部分、一定范围的数据。因此,对多维数据模型的切片、切块、下钻等操作,同样可以应用于DM的过程中。也就是说,可以将DM建立在多维模型(或说超级立方体)的基础之上。
-
- (4) 用户的参与对DM的重要性,动态地提出挖掘要求、选择挖掘算法。故可以将OLAP的Client/Server结构应用于DM中来。
|