数据仓库

一、数据仓库与数据库的

(1)数据库:存放定制数据,表是二维,一张表有多个字段。利用二维表表现多维关系。数据库是根据业务需求应用进行设计。

(2)数据仓库:是数据库概念上的升级,比数据库可以容纳更多的数据。逻辑上数据库与数据仓库无太大差别。 数据仓库是依照分析需求、分析维度、分析指标进行设计的。

二、数据仓库

(1)数据仓库特点

  1、面向主题:比如购物是一个主题,那么购物里面包含用户、订单、支付、物流等数据综合,对这些数据要进行归类并分析。

  2、数据集成:数据仓库的数据是从原有分散的数据库中的数据抽取而来的。需要做大量的数据清洗与数据整理的工作。

  3、不可更新:数据仓库的数据主要是提供决策分析用,设计的数据主要是数据查询,一般情况下不做修改,这些数据反映的是一段较长时间内历史数据的内容。

  4、 数据仓库的数据是随着时间变化而不断增加新的数据。

(2)数据仓库架构

  1、 ODS层(临时存储层):这些数据和源系统的数据是同构,

  2、DW层(数据仓库层):ODS层到DW层的ETL脚本会根据业务需求对数据进行清洗,对这层的数据要求是一致、准确、尽量建立数据的完整性。

  3、DMP层(引用层):数据集市层,这层数据是面向主题来组织数据的,从数据粒度来说,这层的数据是轻度汇总级的数据,提供报表数据。

(3)为什么要分ODS,DW,DMP层

  1、 在未分层的情况下,数据之间的耦合性与业务耦合性是不可避免的,当源业务系统的业务规则发生变化时,可能影响整个数据的清洗过程。

  2、数据分层简化了数据清洗的过程,每一层的逻辑变得更加简单和易于理解,当发生错误或规则变化时,只需要进行局部调整。

  3、通过大量的预处理来提升应用系统查询速,数据仓库会冗余大量的数据,是典型的空间换时间的策略。

posted on 2020-08-08 18:01  hdc520  阅读(231)  评论(0编辑  收藏  举报

导航