Kylin 核心概念(四)

数据仓库(Data Houseware)

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,它用于支持企业或组织的决策分析处理。

数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库

  • 数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;
  • 数据仓库对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改 

联机分析处理(OLAP)

它可以以多维度的方式分析数据,并且能弹性地提供上卷、下钻和透视分析等操作,是呈现集成性决策信息的方法,其主要功能在于方便大规模数据分析及统计计算,多用于计策支持系统、商务只能或数据仓库。

商业智能(BI)

商业智能是指用现代数据仓库技术、在线分析技术、数据挖掘和数据展现技术进行数据分析以实现商业价值

许多企业已经建立了自己的数据仓库,用于存放和管理不断增长的数据,这些数据中蕴含着丰富的商业价值,但只有使用分析工具对其进行大量筛选、计算和展示后,数据中蕴含的规律、价值和潜在信息才能被人们所发现与利用。

分析人员结合这些信息进行商业决策和市场活动,从而为用户提供更好的服务,为企业创造更大的价值。

维度建模

维度建模用于决策制定,并侧重于业务如何表示和理解数据。基本的维度模型由维度和度量两类对象组成。维度建模尝试以逻辑、可理解的方式呈现数据,以使得数据的访问更加直观。维度设计的重点是简化数据和加快查询。

维度建模是数据仓库的核心,它经过精心设计和优化,可以为数据分析和商业智能(BI),检索并汇总大量的相关数据。

常见维度模型如下

  • 星形模型:有一个事实表以及零个或多个维度表,事实表与维度表通过主键外键相关联,维度表之间没有关联
  • 雪花模型:如果星形模型中的某些维度表再做规范,抽取成更细的维度表,让维度表之间也进行关联,这种模型称为雪花模型
  • 事实星座模型:更复杂的模型,其中包含多个事实表,而维度表是公用的,可以共享

事实表和维度表

事实表

事实表是指存储事实记录的表,如系统日志、销售记录等,并且是维度模型中的主表,代表着键和度量的集合。事实表的记录会不断地动态增长,所以它的体积通常远大于其他表,通常事实表占据数据仓库中 90 % 或更多的空间

维度表

维度表存储维度的属性值,可以与事实表做关联,相当于将事实表上经常出现的属性抽取、规范出来用一张表进行管理,常见的维度表有日期表、地点表等

使用维度表的好处:

  • 减少事实表的大小
  • 便于维度的管理和维护(CURD 不必对事实表的大量记录进行改动)
  • 可以为多个事实表同时使用,减少重复工作

维度和度量

维度

维度是人们观察数据的特定角度,是考虑问题时的一类属性。它通常是数据记录的一个特征,如时间、地点等。同时,维度具有层次概念,可以存在细节程度不同的描述方面,如日期、月份、季度、年等。

维度的基数指的是该维度在数据集中出现的不同值的个数。如国家是一个维度,有200个不同的值,那么此维度的基数是200.通常一个维度的基数为几十到几万,个别维度如用户ID的基数会超过百万甚至千万,基数超过一百万的维度通常被称为超高基数维度,需要引起设计者的注意。

度量

在数仓中,可以在数学上求和的事实属性称为度量。如可以对度量进行总计、平均、以百分比形式使用等。度量是维度模型的核心。

在一个 SQL 查询中,Group By 的属性通常就是维度,而其所聚合汇总的值则是度量

Cube、Cuboid 和 CubeSegment

Cube

Cube(或 Data Cube),即数据立方体,是一种常用于数据分析与索引的技术,它可以对原始数据建立多维度索引,大大加快数据的查询效率。

Cuboid

Cuboid 特指 Kylin 中在某一种维度组合下所计算的数据

Cube Segment

Cube Segment 指针对源数据中的某一个片段计算出来的 Cube 数据。通常,数据仓库中的数据数量会随时间的增长而增长,而 Cube Segment 也会按时间顺序构建的。

posted @ 2021-06-22 10:11  Binge-和时间做朋友  阅读(148)  评论(0编辑  收藏  举报