SQL2000联机丛书:使用和维护数据仓库
本次摘录 来源于
SQL2000联机丛书中 创建和使用数据仓库概述
为的是对数据仓库有个概观的认识
=============
使用数据仓库
=============
SQL 查询
---------
最终用户很少使用结构化查询语言 (SQL) 查询直接访问数据仓库数据。
分析 SQL 查询很复杂,必须具有数据库专业知识才能正确创建。
数据仓库中的数据量经常很大,以至于需要完善的 SQL 技术获得有用的性能。
如果一个 SQL 查询将三个或四个维度表联接到包含数百万行的事实数据表,
并且使用聚合函数(如 SUM)汇总和分组结果,会显著增加任何关系数据库的负荷,
而且通常会产生联机分析无法接受的性能。
SQL 查询通常由数据库专家创建,与在较低活动期间定期执行的预定义报表一起使用。
可以创建辅助汇总表优化这些查询的性能;
必须在装载数据仓库时初始设计和填充这些表,然后在每次更新数据仓库时更新它们。
OLAP 和数据挖掘
----------------
联机分析处理 (OLAP) 是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的技术。
多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能。
数据挖掘使用复杂算法分析数据并创建模型来表示有关数据的信息。
数据挖掘模型可用于预测新数据的特点或识别具有相似特点的数据实体组。
多维数据集和数据挖掘模型必须经过设计、配置和处理后才能由客户端应用程序使用,
并且经常要求在数据仓库数据更新时更新。
English Query
--------------
English Query 提供用于开发客户端应用程序的系统,以使最终用户能够使用英语单词和短语访问数据。
English Query 可用于访问由 Microsoft SQL Server 2000 Analysis Services 创建的数据仓库数据库或多维数据集中的数据。
若要开发 English Query 应用程序,首先必须创建一个模型将数据库表、字段、多维数据集和数据与英语单词和短语相关。
然后,可以生成 English Query 应用程序并将其合并到自定义 Web 或客户端应用程序由最终用户使用。
Microsoft Office 2000
---------------------
Microsoft SQL Server 2000 数据库中的数据仓库数据可由 Microsoft Office 组件访问,
如 Microsoft Excel 或 Microsoft Access。
但是,大多数数据仓库中的数据量通常表明,需要创建并维护特殊的查询或数据表以支持最终用户使用这些组件。
必须创建这类特殊的查询和表并作为数据仓库的一部分进行维护。
一个例外是 Excel PivotTables 和 SQL Server 2000 Analysis Services 的集成。
Analysis Services 用于创建和管理 OLAP 数据时,最终用户很容易通过分析服务器连接到多维数据集联机分析数据,
或在他们的本地计算机上创建多维数据集脱机使用。
Web 访问和创建报表
------------------
向最终用户提供数据仓库数据访问能力的 Web 应用程序很受欢迎,
因为客户端可以使用标准的 Web 浏览器,而不必非得安装、配置和维护特殊的应用程序。
最初只能查看静态 Web 页上显示的数据,现在,最新技术支持创建高级交互式应用程序,
使客户端得以查询和更新数据仓库和多维数据集中的数据。
脱机 OLAP 多维数据集
--------------------
联机分析处理 (OLAP) 中使用的多维数据集提供数据仓库数据的多维视图,
最终用户发现在他们搜索业务问题的答案时很容易使用和浏览该视图。
Microsoft SQL Server 2000 Analysis Services 通过其用于客户端应用程序的 PivotTable 服务组件,
提供创建数据仓库多维数据集的子集并在本地保存它们以便脱机分析的功能。
最终用户应用程序还可以在脱机模式下使用 PivotTable 服务,直接从关系数据库创建脱机多维数据集
第三方应用程序
--------------
自定义应用程序
--------------
SQL2000联机丛书:维护数据仓库
本次摘录 来源于
SQL2000联机丛书中 创建和使用数据仓库概述
为的是对数据仓库有个概观的认识
=============
维护数据仓库
=============
更新数据仓库数据
----------------
更新数据仓库数据包括定期从可操作系统中析取数据,清除和转换数据和将新数据装入数据仓库。
每次数据更新还包括:
在 Microsoft SQL Server 2000 Analysis Services 用于联机分析处理 (OLAP) 的情况下必须完成同步多维数据集的任务;
还必须更新所有作为数据仓库一部分的数据集市。
用于定期更新的析取、清理和转换数据的过程,
在本质上与初始装载数据仓库所使用的过程相同,
但更新过程通常比初始装载过程简单且自动化程度更高。
在初始装载过程中制定的过程和自动化任务可以减少更新过程中所需的手工工作量。
初始装载过程中识别和执行的对源可操作系统的改正也减少了必须在更新过程中解决的不一致和错误的数目。
但是,经常有这种情况,在更新过程中需要手工干预以确保数据准备装入数据仓库。
初始数据装载和数据更新之间的一个不同之处在于,
在将数据装入数据仓库可由用户使用之前,应在更新数据上不断地验证引用完整性。
更新通常包括添加和更改维度表以及向事实数据表添加行。
在将新更改的数据装入数据仓库之前,应检查其内部一致性并在数据仓库中的当前数据上验证。
在更新数据已准备装入数据仓库后,
可以使用 Transact-SQL、数据转换服务 (DTS) 或 bcp 实用工具更新数据仓库表。
根据为最终用户提供数据仓库数据访问能力的显示应用程序的设计和实现,
可能需要在更新过程中使数据仓库脱机以免查询结果不一致。
管理数据仓库
------------
管理数据仓库与管理联机事务处理 (OLTP) 系统既相似又不同。
相似之处在于:
在关系数据库中存储和维护数据仓库数据,所以用于管理关系数据库的工具也可以用于数据仓库。
不同之处在于:
OLTP 系统通常具有大量不稳定数据的事务更新的特点,而数据仓库通常具有大量稳定的历史数据的特点。
这些差异要求对数据仓库管理任务使用不同的方法,如备份数据和自动执行反复出现的任务。
备份数据仓库数据
联机事务处理 (OLTP 系统捕获外来数据并更新数据库。
为确保不丢失数据,系统在事务执行时记录事务,管理员则制定包括定期的完整和增量数据库备份的备份策略。
这些策略旨在防止数据丢失,最大程度地减少对可操作事务处理的影响,以及从系统故障中快速恢复。
相反,数据仓库存储大量稳定的历史数据,按照被管理的定期调度进行更新。
对于数据仓库,在设计备份策略时应尽量减少完整备份并对数据更新使用增量备份。
在恢复时间约束上,数据仓库故障比 OLTP 故障通常更灵活且限制更少。
与 OLTP 系统相比,更宽松的恢复时间约束通常使得很少需要进行完整数据仓库备份。
例如,销售事实表可能包含数百万行反映十年历史的销售。
在业务执行到年终结束时,几乎不太可能更改销售数据。
重复备份没更改的数据是不必要的,备份策略中应考虑这一点。
根据恢复时间约束和数据量,可以创建一个策略,使用增量备份备份在数据仓库更新过程中新增的数据,
然后创建只包含在年终结束后的当前年度内新增的数据的备份。
从彻底的数据仓库数据库故障中恢复要求装载多个备份,
当前年度之前的每一年各有一个备份,然后是当前年度更新的增量备份。
自动化数据仓库任务
管理和维护数据仓库涉及大量的任务。
这些任务中的很多可通过 Microsoft SQL Server 2000 中的各种工具自动执行。
可以调度定期完成适当的任务。
优化数据仓库性能
----------------
对于分析并汇总多个联接表中的大量行的查询,数据仓库必须提供对这类查询的快速评估。
Microsoft SQL Server 2000 提供可用于优化包含数据仓库数据的关系数据库性能的信息。
数据库的性能会受您所做的很多选择的影响,
比如在数据库的逻辑设计、它的物理实现、索引优化、查询优化等方面的选择。
posted on 2006-11-29 09:41 freeliver54 阅读(1066) 评论(1) 编辑 收藏 举报