|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|数仓模型|元数据|

一、数据仓库模型
### --- 事实表与维度表

~~~     在数据仓库中,保存度量值的详细值或事实的表称为事实表。
~~~     事实数据表通常包含大量的行。
~~~     事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,
~~~     以提供有关单位作为历史的数据。事实表的粒度决定了数据仓库中数据的详细程度。
~~~     常见事实表:订单事实表
~~~     事实表的特点:表多(各种各样的事实表);数据量大
~~~     # 事实表根据数据的粒度可以分为:

~~~     事务事实表、周期快照事实表、累计快照事实表维度表(维表)可以看作是用来分析数据的角度,
~~~     纬度表中包含事实数据表中事实记录的特性。
~~~     有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息。
~~~     常见维度表:时间维度、地域维度、商品维度
### --- 小结:

~~~     事实表是关注的内容(如:销售额、销售量)
~~~     维表是观察事务的角度
二、事实表分类
### --- 事务事实表

~~~     事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”。
~~~     事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务一条记录。
~~~     一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。
~~~     事务事实表的日期维度记录的是事务发生的日期,它记录的事实是事务活动的内容。
~~~     用户可以通过事务事实表对事务行为进行特别详细的分析。
~~~     如:订单表
~~~     通过事务事实表,还可以建立聚集事实表,为用户提供高性能的分析。
### --- 周期快照事实表

~~~     周期快照事实表以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等等。
~~~     典型的例子如销售日快照表、库存日快照表等。
~~~     它统计的是间隔周期内的度量统计,如历史至今、自然年至今、季度至今等等。
~~~     周期快照事实表的粒度是每个时间段一条记录,通常比事务事实表的粒度要粗,
~~~     是在事务事实表之上建立的聚集表。
~~~     周期快照事实表的维度个数比事务事实表要少,但是记录的事实要比事务事实表多。
~~~     如:商家日销售表(无论当天是否有销售发生,都记录一行)日期、商家名称、销售量、销售额
### --- 累积快照事实表

~~~     累积快照事实表和周期快照事实表有些相似之处,它们存储的都是事务数据的快照信息。
~~~     但是它们之间也有着不同,周期快照事实表记录的确定的周期的数据,
~~~     而累积快照事实表记录的不确定的周期的数据。
~~~     累积快照事实表代表的是完全覆盖一个事务或产品的生命周期的时间跨度,它通常具有多个日期字段,
~~~     用来记录整个生命周期中的关键时间点。
~~~     另外,它还会有一个用于指示最后更新日期的附加日期字段。
~~~     由于事实表中许多日期在首次加载时是不知道的,所以必须使用代理关键字来处理未定义的日期,
~~~     而且这类事实表在数据加载完后,是可以对它进行更新的,来补充随后知道的日期信息。
~~~     如:订货日期、预定交货日期、实际发货日期、实际交货日期、数量、金额、运费
~~~     如:商家本周、本月、本年累计销售表
三、星型模型
### --- 星形模型

~~~     星型模是一种多维的数据关系,它由一个事实表和一组维表组成;
~~~     事实表在中心,周围围绕地连接着维表;
~~~     事实表中包含了大量数据,没有数据冗余;
~~~     维表是逆规范化的,包含一定的数据冗余;
四、雪花模型
### --- 雪花模型

~~~     雪花模式是星型模型的变种,维表是规范化的,模型类似雪花的形状;
~~~     特点:雪花型结构去除了数据冗余。
~~~     星型模型存在数据冗余,所以在查询统计时只需要做少量的表连接,查询效率高;
~~~     星型模型不考虑维表正规化的因素,设计、实现容易;
~~~     在数据冗余可接受的情况下,实际上使用星型模型比较多;
五、事实星座
### --- 事实星座

~~~     数据仓库由多个主题构成,包含多个事实表,而维表是公共的,可以共享,
~~~     这种模式可以看做星型模式的汇集,因而称作星系模式或者事实星座模式。
~~~     特点:公用维表

六、元数据
### --- 元数据

~~~     元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记
~~~     录了数据从产生到消费的全过程。元数据就相当于所有数据的地图,有了这张地图就能知道数据仓库中:
~~~     有哪些数据
~~~     数据的分布情况
~~~     数据类型
~~~     数据之间有什么关系
~~~     哪些数据经常被使用,哪些数据很少有人光顾
~~~     在大数据平台中,元数据贯穿大数据平台数据流动的全过程,主要包括数据源元数据、
~~~     数据加工处理过程元数据、数据主题库专题库元数据、服务层元数据、应用层元数据等。
### --- 业内通常把元数据分为以下类型:

~~~     技术元数据:库表结构、数据模型、ETL程序、SQL程序等
~~~     业务元数据:业务指标、业务代码、业务术语等
~~~     管理元数据:数据所有者、数据质量、数据安全等

 
 
 
 
 
 
 
 
 

Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
                                                                                                                                                   ——W.S.Landor

 

 

posted on   yanqi_vip  阅读(25)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示