数据仓库介绍

数据仓库

1.概念

  • 名称:Data Warehouse , 简称DW或DWH。
  • 作用:构建面向分析的集成化数据环境,为企业提供决策支持。出于分析性报告和决策支持目的的创建
  • 本性:不“生产”任何数据,不“消费”任何数据,数据来源外部,开放给外部应用。所以叫仓库。

2.主要特征

是决策支持系统和联机分析应用数据源的结果化数据环境。
数据仓库研究和解决从数据库中获取信息的问题。
特征在于面向主题、集成性、稳定性和时变性。

  • 面向主题
    • 面向事务处理任务,抽象。
  • 集成性
    • 数仓中的data是对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
    • ETL(Extract_Load_Transform)抽取 加载 集成
      • ETL介绍
      • 数仓的数据来自分散的操作性数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数仓,要完成的工作有:
      • 1.统一源数据中所有矛盾,如字段的同名异义、异名同义、单位不统一、字长不一致
      • 2.进行数据综合和计算,数仓中的数据综合工作可以在从源数据库中抽取时生成,但许多是在数据仓库内部生成的
  • 非易失性(不可更新)
    • 数仓中的数据通常包含历史信息,系统记录了企业从过去某一时间点(从开始应用数据仓库的时间点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测.
    • 基于数仓是提供分析和预测的数据的,那么一般所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载和刷新.
  • 时变性:
    • 数仓中的数据是按照时间顺序进行追加的,都带有时间属性.

3.数据库和数据仓库的区别

4.数仓的分层(一面试就问)

数据集市介绍

是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度,需要的计算的指标,维度的层次等,生成面向决策分析需求的数据立方体.

维度

1.维度

观察数据的角度,如时间,地点. group by后的内容.

2.度量

基于数据计算出来的值. 一个数据,如总销售额. agg聚合后求到的值.

posted @ 2021-12-15 10:36  jsqup  阅读(185)  评论(0编辑  收藏  举报