数据仓库 之理论
一、为什么学数据仓库
- 数据不兼容,很难被整合
- 战略决策需要数据的分析
- 推荐系统
二、数仓定义
是一个面向主题的、集成的、非易失的、随时间变化的数据集合
1. 主题
>> 如“销售分析”主题
数据源可以表,可以视频、图片、日志
提取主题
>> 包含主题所有信息,抛弃无关数据
2. 集成
3. 非易失
非原始数据,乃拷贝形成
4. 随时间变化
三、数据仓库和数据库的区别
补充:3NF —— 数据库三大范式
补充:OLTP和OLAP区别
补充:hive一般不更新,但是硬要事务,需要建表语句中加"transactional=true"
四、数据仓库的架构
1. inmon:中间使用 数据库
2. Kimball
详见:https://www.cnblogs.com/dajiangtai/p/11718779.html
五、数据仓库的解决方案
六、数据仓库的建模
1)选择业务流程
2)声明粒度
建议最细粒度
3)确认维度 & 确认事实
-
多维模型:
(一)星型模型
(二)雪花模型