数仓汇总表的类型汇总
数仓中表类型有很多,这里罗列一下数仓中各种表的区别及使用场景。
1.拉链表
(1)记录一个实体的所有历史状态变化。
(2)每个状态都有一个起始日期,目前有效的这一条可用很大的日期表示,比如2999-01-01等。
(3)当状态发生变化时,上一条状态的结束日期字段被更新为当前日期。
(4)当需要获取某个历史状态或者进行状态对比时可考虑用这种表。
2.增量表
(1)记录每次增加的量,而不是总量。
(2)只存储一定时间内的增量数据,比如天以内的数据变化。
(3)需定期与全量表进行合并,否则数据容易丢失。
(4)数据采集为了提升效率,减轻源端系统压力,可考虑使用。
3.全量表
(1)每次记录所有数据,不管是否有变化。
(2)为了可以一次性获取所需数据,方便分析,可以考虑采用。
4.快照表
(1)定期采用该表对数据进行定期备份,在需要时进行恢复。
(2)当数据逻辑变化时,可根据当时的历史快照数据进行重刷数据。
(3)这种表比较耗费存储空间,可根据情况保留最近1年的分区。
(4)一般通过时间进行快照设计,比如天快照,月快照。
5.累积快照事实表
(1)事实表的一种,累计快照事实表的主要用于研究事件之间时间间隔。(2)累积快照事实表记录的是不确定周期的数据,覆盖一个产品的生命周期的时间跨度,它通常有多个字段,覆盖多个业务过程的时间。
6.周期快照事实表
(1)事实表的一种,周期快照事实表以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等等。
(2)它是属于稠密性质的表,它不管业务过程是否发生,都会记录一条数据。
7.流水表
(1)任何字段修改都会存储一条数据,每个修改记录都存储一条数据,拉链表只针对固定修改的几个维度变化进行存储。
8.事务事实表
(1)是事实表的一种, 事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务记录一条记录,具有稀疏性质。