快速了解数据仓库及数据建模的常用新术语
◆数据仓库
数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。
数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确,因为它必须在特定的时间基础上从操作环境中提取出来。
◆数据集市
数据仓库只限于单个主题的区域,例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。
◆事实
事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。
事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。
每个事实包括关于事实(收入、价值、满意记录等)的基本信息,并且与维度相关。
在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。我们稍后讨论有关缺无事实的情况。
◆维度
维度是绑定由坐标系定义的空间的坐标系的轴线。数据仓库中的坐标系定义了数据单元,其中包含事实。
坐标系的一个例子就是带有 x 维度和 y 维度的 Cartesian(笛卡尔)坐标系。
在数据仓库中,时间总是维度之一。
◆数据挖掘
在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。
◆分析空间
分析空间是数据仓库中一定量的数据,用于进行数据挖掘以发现新信息同时支持管理决策。
◆切片
一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。
◆切块
一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。
◆星型模式
一种使用关系数据库实现多维分析空间的模式,称为星型模式。
星型模式将在本白皮书中稍后进行进一步讨论。
◆雪花模式
不管什么原因,当星型模式的维度需要进行规范化时,星型模式就演进为雪花模式。