1 数据仓库的含义 数据仓库(DW: Data warehouse)是一个面向主题的、集成的、稳定的、反映历史变化的数据集合。 数据仓库以数据分析和决策支持为目的来组织、存储数据。 --------------------------------------------------------------------- 比较: 数据库是长期存储在计算机内的、 有组织的、大量的、 可共享的、具有最小冗余度的数据集合。 数据库主要为运营型系统存储、查询数据。 2 数据仓库的特征 特征一:面向主题 主题(Subject):特定的数据分析领域与目标。 例如,超市管理系统中的“商品销售”、“商品采购”等。 高校管理中的“本科生”、“研究生”、“教师”等。 一个数据仓库中可以存储多个主题的数据。 面向主题:构建数据仓库,首先要确定分析主题。 特征二:数据是集成的 数据仓库一般都要涉及多个分析主题。而一个分析主题,又需要多方面的数据。数据仓库需要的数据往往分布在不同的数据库等数据源中。 “数据集成”就是说要将不同数据源中的数据,通过抽取、清洗、转换等处理,加载到数据仓库中。 特征三:数据仓库中的数据反映历史变化 数据仓库中的数据一般都带有“时间戳”,以与某个“时间”联系起来,用以记录业务系统的各个瞬态。 ----------------------------- 将各个瞬态连接起来,就可再现业务系统的全过程。 ------------------------ 例如,高校教师业绩数据仓库中的数据,都有一个年份作为“时间戳”。记录了教师每年的业绩情况。将这些“瞬态”连接起来,就可再现教师工作的全过程。 特征四:数据仓库中的数据是稳定的(或称不可修改的) 数据库中一般只存储当前最新状态的数据。不同时间查询出来的可能不一样。 例1:库存管理系统中,物品的库存量只存储当前的库存量。 例2:超市销售系统中,商品的售价只存储当前售价。 -------------------------------------------------------- 数据仓库中的反映的是历史事实,所以不需修改。执行的主要操作是“查询”操作,不执行“修改”操作。 所以,数据仓库中的数据是稳定的。 3 数据仓库与数据库的比较 4 商务智能(BI)系统的工作流程 BI: Business Intelligence商务智能 商务智能是商务数据海洋中的指南针,它通过对历史数据的分析获得对经营决策有价值的信息,从而帮助用户对自身的业务业务经营作出正确而明智的决定。 BI=(DW+ OLAP+ DM) OLAP: 联机分析处理 On-Line Analytical process DM: 数据挖掘 Data Mining DSS: 决策支持系统 Decision Support System