数仓理论知识学习

https://blog.csdn.net/qq_46893497/article/details/113964444

目录

背景:

对数仓理论的知识实在是很模糊,所以咨询了一下公司的数仓大神,先对理解进行白话文输出:

事实表:

如订单表,借款记录表等等,各个维度的数据在一起,称为事实表。

订单表字段:id  用户名 商品编码  日期  价格  状态 等等。

维度表:

用户名,就算一个维度,对应的用户表,就是维度表。商品编码是一个维度  日期是一个维度等。可以group by 的字段都属于维度字段

特别说明:价格这种属于修饰词,不存在什么维度,他是指标重点需要统计的。

原子指标:

就是需要统计的东西,并不一定要具体到某个表,比如订单的原子指标为:订单量  金额等

派生指标:

对原子指标的统计:比如一个月的订单量 或 一个月的退款订单量 。 概括为:原子指标 + 维度修饰 + 业务限定

衍生指标:

对派生指标的概率,比如同比 环比  等

业务限定:

就是where后面的筛选条件

数据域:

一定是在数仓进行之前,就定好了

比如对于电商来说,数据域可以分为以下:

用户域     交易域   运营域   等按照某个具体的业务来划分

再比如表市场:

设备域   交易域  。设备域:就是各种设备,工商   民用  带远传  不带远传等

主题域:

是各个数据域进行的一个抽象,满足某一个主题。

比如上面:工商交易域:就属于一个主题域。

数据集市:

就是各种维度的汇总,一个宽表。

比如:有一张这样的表

维度(每月的数据 )  订单量  用户量   交易量  交易金额  退款量  退款金额 等等

这样很多数据从数据集市就可以拿到了。

 

对数据域和主题域进行二次讲解:

比如:有一家菜馆,厨房里面每天都要备很多菜,那么肯定要划分,分类管理:肉类   蔬菜类  海鲜类  这就属于数据域

按照客人的口味:徽菜  川菜  杭帮菜 这就属于主题域。主题域是已经做好的菜,数据域是还没做之前的划分。主题域和主题域之间可能会重叠,

比如:徽菜和杭帮菜 都有清蒸鲈鱼。

 

数据分层:

按照常见的:ODS  DWD   DWS  ADS  很多公司的数仓做到DWS就结束了

ODS:原始层数据,就是把各个地方数据汇总到一起,便于查找,一般放在HDFS上 。白话文:比如一个文件下:word  excel ppt等来自各式各样的数据。

DWD:维度数据补全,明细,比如用户表只有,公司id  ,则会不全,公司名称,联系电话  地址 公司编码等,使数据更加明细

DWS:轻度的汇总,按照不同的维度进行汇总,比如用户的订单量,  进一个月的订单数等等 

ADS :一般对应某个主题域,具体场景分析。

posted @ 2023-03-16 15:13  xzlnuli  阅读(57)  评论(0编辑  收藏  举报