Data Mining、Data Warehousing、OLAP三者关系 [收藏]
转载自:http://blog.csdn.net/zdhsnail/archive/2008/02/21/2111248.aspx
若将Data Warehousing(数据仓储)比喻作矿坑,Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待Data Mining能挖掘出什么有意义的信息的。
要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。「数据仓储」,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓储的目标是在组织中,在正确的时间,将正确的数据交给正确的人。
许多人对于Data Warehousing和Data Mining时常混淆,不知如何分辨。其实,数据仓储是数据库技术的一个新主题,在数据科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。
数据仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指从在线交易系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据仓储中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓储最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓储的重点。综上所述,数据仓储应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据仓储挖掘出对决策有用的信息与知识,是建立数据仓储与使用Data Mining的最大目的,两者的本质与过程是两码子事。换句话说,数据仓储应先行建立完成,Data mining才能有效率的进行,因为数据仓储本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为「Data Mining是从巨大数据仓储中找出有用信息的一种过程与技术」。
所谓OLAP(Online Analytical Process)意指由数据库所连结出来的在线查询分析程序。有些人会说:「我已经有OLAP的工具了,所以我不需要Data Mining。」事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而Data Mining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。
举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但Data Mining则不然,执行Data Mining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。
Data Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚或不会被怀疑过的数据型样与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。
posted on 2009-02-14 17:04 smwikipedia 阅读(600) 评论(0) 编辑 收藏 举报