数据仓库有关技术
一.技术上获取信息存在的问题
数据仓库作为决策支持系统和联机分析应用数据源的结构化数据环境所要研究和解决的问题就是从数据库中获取信息。将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法,但在实际的操作中,要获得有用的信息并非如想像的那么容易:
1. 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。
2. 业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。
3. 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。(http://www.pcworld.com.cn/99/9909/0921.asp)
二.数据仓库系统的三个工具层
OLAP的查询分析型工具、DSS的分析预测型工具、数据挖掘的挖掘型工具一起构成了数据仓库系统的工具层,它们各自的侧重点不同,适用范围和针对的用户也不相同。具备了这三种工具的数据仓库系统,才能真正高效地利用数据仓库中蕴藏的大量宝贵的信息。
1)联机分析处理(OLAP)
联机分析处理(OnLine Analytical Processing,OLAP)主要通过多维的方式来对数据进行分析、查询和报表。它不同于传统的联机事物处理(Online Transaction Proces sing, OLTP)应用。OLTP应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。
目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。(http://www.pcworld.com.cn/99/9904/0431a.asp)
2)决策支持系统(DSS)
决策支持系统(DSS)和数据仓库的目标用户相同,都是面向企业的中高层领导,它们执行的都是决策和趋势分析类的应用,DSS中的一些技术可以很好地集成到数据仓库中,并使数据仓库的分析能力更加强大。例如:DSS中的传统统计分析模型可以帮助用户对数据仓库中的数据进行更加有效、更加深入的分析,从而更好地掌握和利用信息。而一些智能决策技术,如人工神经网络在发现顾客行为模式、预测金融市场行为等方面显示了强大的功能。这些DSS的核心技术在数据仓库中的应用不但会大大提高数据仓库的决策支持能力,同时也使DSS的应用范围更加广泛。
3)数据挖掘
数据挖掘是当前业界的热门技术,已经在多个应用领域产生了巨大的效益。数据挖掘不一定需要建立在数据仓库的基础上,但是如果将数据挖掘和数据仓库协同工作,则可以简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率。并且因为数据仓库的数据来源于整个企业,保证了数据挖掘中数据来源的广泛性和完整性。数据挖掘技术是数据仓库应用中比较重要也是相对独立的部分。目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。(http://www.pcworld.com.cn/99/9904/0431a.asp)
三.数据仓库的关键技术
与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库设计的技术咨询四个方面。(详细资料见:http://www.pcworld.com.cn
数据仓库作为决策支持系统和联机分析应用数据源的结构化数据环境所要研究和解决的问题就是从数据库中获取信息。将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法,但在实际的操作中,要获得有用的信息并非如想像的那么容易:
1. 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。
2. 业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。
3. 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。(http://www.pcworld.com.cn/99/9909/0921.asp)
二.数据仓库系统的三个工具层
OLAP的查询分析型工具、DSS的分析预测型工具、数据挖掘的挖掘型工具一起构成了数据仓库系统的工具层,它们各自的侧重点不同,适用范围和针对的用户也不相同。具备了这三种工具的数据仓库系统,才能真正高效地利用数据仓库中蕴藏的大量宝贵的信息。
1)联机分析处理(OLAP)
联机分析处理(OnLine Analytical Processing,OLAP)主要通过多维的方式来对数据进行分析、查询和报表。它不同于传统的联机事物处理(Online Transaction Proces sing, OLTP)应用。OLTP应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。
目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。(http://www.pcworld.com.cn/99/9904/0431a.asp)
2)决策支持系统(DSS)
决策支持系统(DSS)和数据仓库的目标用户相同,都是面向企业的中高层领导,它们执行的都是决策和趋势分析类的应用,DSS中的一些技术可以很好地集成到数据仓库中,并使数据仓库的分析能力更加强大。例如:DSS中的传统统计分析模型可以帮助用户对数据仓库中的数据进行更加有效、更加深入的分析,从而更好地掌握和利用信息。而一些智能决策技术,如人工神经网络在发现顾客行为模式、预测金融市场行为等方面显示了强大的功能。这些DSS的核心技术在数据仓库中的应用不但会大大提高数据仓库的决策支持能力,同时也使DSS的应用范围更加广泛。
3)数据挖掘
数据挖掘是当前业界的热门技术,已经在多个应用领域产生了巨大的效益。数据挖掘不一定需要建立在数据仓库的基础上,但是如果将数据挖掘和数据仓库协同工作,则可以简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率。并且因为数据仓库的数据来源于整个企业,保证了数据挖掘中数据来源的广泛性和完整性。数据挖掘技术是数据仓库应用中比较重要也是相对独立的部分。目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。(http://www.pcworld.com.cn/99/9904/0431a.asp)
三.数据仓库的关键技术
与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库设计的技术咨询四个方面。(详细资料见:http://www.pcworld.com.cn