二、数据仓库主要特性

主要特性

面向主题

  • 数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。
  • 而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
  • 操作型处理(传统数据)对数据的划分并不使用于决策分析,而基于主题组织的数据则不同,它们被划分为各自独立的领域,每个领域有各自的逻辑内涵但互不交叉,在抽象层次上对数据进行完整、一致和准确的描述。

集成性

  • 确定主题之后,就需要获取和主题相关的数据。在当下企业中主题相关的数据通常会分布在多个操作型系统中,彼此分散、独立、异构。
  • 因此在数据进入数据仓库之前,必然要经过统一与综合,对数据进行抽取、清理、转换和汇总,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:
  1. 要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
  2. 进行数据综合和计算。数据仓库中的数据综合工作可以在原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

非易失性(非异变性)

  • 数据仓库是分析数据的平台,而不是创造数据的平台。我们是通过数仓去分析数据中的规律,而不是去创造修改其中的规律,因此数据进入数据仓库后,它便稳定且不会改变。
  • 操作型数据主要服务于日常的业务操作,使得数据库需要不断地对数据实时更新,以便迅速获得当前最新数据,不至于影响正常的业务运作。在数据仓库中只要保存过去的业务数据,不需要每一笔都实时更新数据仓库,而是根据商业需要每隔一段时间把一批较新的数据导入数据仓库即可。
  • 数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据。
    数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留,数据仓库中一般有大量的查询操作,但修改和删除操作很少。

时变性

  • 数据仓库包含各种粒度的历史数据,数据可能与某个特定日期、星期、月份、季度或者年份有关。
  • 虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况。
    当业务发生变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要随着时间更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。
  • 数据仓库的数据随时间的变化表现在以下几个方面。
  1. 数据仓库的数据时限一般要远远长于操作型数据的数据时限。
  2. 操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。
  3. 数据仓库的数据是按照时间顺序追加的,它们都带有时间属性。
posted @ 2021-09-02 19:14  池左岛夜香  阅读(370)  评论(0编辑  收藏  举报