数仓理论
1.表的分类
实体表:记录一个实实在在物体的信息。现实存在的业务对象。
维度表:对某些数据的说明,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。
事实表:记录某一件实实在在发生的事情。由人的行为触发的。下单
事务型事实表,一般指随着业务发生不断产生数据。
周期型事实表,一般指随着业务发生不断产生变化(更新, 新增)的数据。
2.模型的好处
建立数据仓库模型,禁止数据开发从ODS层取数,模型是根据公司对公司全业务范围内的业务对象进行抽象从而以信息模型的形式进行描述,效果是最少数据重复,模型是经过业务验证不断进行优化的。
3.维度退化 Degenerate Dimension
将维度退化到事实表中,减少事实表和维度表的关联,采用一些维度退化手法,将维度退化至事实表,采用更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。
一般一个维度键都有对应的维表,如果退化到事实表,可以减少关联次数,退化维可以用group by进行分组。
We only live once, and time just goes by.