数仓设计 Building the Data Warehouse

 
1. 数据的粒度
最好是两层,一层保留最细粒度的数据,一层保留粗粒度的数据
2. 数据分区
3. Integration
1) 域值
2)单位
3)字段mapping
 
4. 5种方法增量写入
1)标记时间戳
2)只传输增量书籍
3)日志文件或审计文件(归档日志,binlog, web log)
4)改应用代码
5)数据库快照对比
 
5. 数据建模
1) 去掉只存在于操作端的数据
2)主键结构加上时间字段
3)添加一些衍生数据(公用的,并且只计算一次的)
4)数据(表)之间的关系
5)稳定性分析(不会改变的字段分为一组,有时会改变的字段分为一组,经常会改变的字段分为一组,即放在一个表里)
 
三层数据模型:
高级:实体关系
中级:数据集
低级:物理模型
 
四个数据模型构造器:
主表
从表
连接器(外键)
类型(主从,母子)
 
 

posted @ 2021-02-25 22:10  Orchidelle  阅读(165)  评论(0编辑  收藏  举报