数据仓库 之理论

一、为什么学数据仓库

  1. 数据不兼容,很难被整合 
  2. 战略决策需要数据的分析
  3. 推荐系统

二、数仓定义

是一个面向主题的、集成的、非易失的、随时间变化的数据集合

1. 主题 

  >> 如“销售分析”主题
  数据源可以表,可以视频、图片、日志
  提取主题
  >> 包含主题所有信息,抛弃无关数据

2. 集成 

3. 非易失 

非原始数据,乃拷贝形成

4. 随时间变化 

三、数据仓库和数据库的区别

补充:3NF —— 数据库三大范式

补充:OLTP和OLAP区别

 

 补充:hive一般不更新,但是硬要事务,需要建表语句中加"transactional=true"

四、数据仓库的架构 

1. inmon:中间使用 数据库

2. Kimball 

 

详见:https://www.cnblogs.com/dajiangtai/p/11718779.html

五、数据仓库的解决方案

六、数据仓库的建模

1)选择业务流程

2)声明粒度

 建议最细粒度

3)确认维度 & 确认事实

  • 多维模型:

(一)星型模型

(二)雪花模型

 

posted @ 2020-11-10 09:06  PEAR2020  阅读(152)  评论(0编辑  收藏  举报