OLAP数仓入门-基础篇
-
链接:
- OLAP数仓入门问答-基础篇 https://zhuanlan.zhihu.com/p/144926830
- OLAP入门问答-进阶篇 https://zhuanlan.zhihu.com/p/147344996
- 【讲稿】Impala在网易大数据中使用和优化实践 https://zhuanlan.zhihu.com/p/267250179 https://zhuanlan.zhihu.com/p/267252759
- http://note.youdao.com/noteshare?id=04ec7a58ee3b980516ae2b8954d5f2cd&sub=94C021D5FF2B4094A8B0D6119193B47D文档:OLAP进阶之存算分离和数据本地化.md
-
总结:
- 数据仓库的四个基本特征:面向主题的,集成的,相对稳定的,记录历史的。
- 数仓价值:高效的数据组织形式,时间价值,集成价值,历史价值。
- 数据仓库不需要存储所有原始数据,但是需要存储细节数据,并且导入的数据必须经过整理和转换使其面向主题。
- 数据仓库的多维数据模型实例:事实表与维表。维度表依赖事实表而存在
- 数据立方体data cube是多维数据模型一种比较形象的说法。OLAP是基于数据仓库多维模型基础上实现的面向分析的各类操作的集合。包括MOLAP,ROLAP和HOLAP。基本操作包括钻取、上卷、切片、切块、旋转。
- 数据仓库data warehouse中数据的存在方式与其所要发挥的作用相关,即针对不同的业务模型,数仓的数据存储方式不同,基于不同的业务模型设计对应的数据仓库的数据模型,进而针对性的实现不同的ETL操作,将外部数据经过不同程度的处理之后存储到数据仓库中。
- 数据仓库若面向比较固定的需求,根据需求设计多维模型建立数据集市,数据仓库中的数据就是为了满足这个数据集市的需求而存储;但是当需求多样并且多变,一般需要先建立
起数据仓库汇总细节数据,再根据不同的需求建立多维模型,开放数据集市。 - 数据仓库本身既不生产数据也不消费数据,只是作为一个中间平台集成化的存储数据;数据仓库实现的难点在于整体架构的构建以及ETL的设计,这也是日常管理与维护的重点;数据仓库的真正价值体现在数据应用上,如果没有有效的数据应用,数据仓库是没有意义的。
-
问题:
- BI分析模型主要有两类,一类是数据仓库常见的多维模型,另一类是根据具体业务构建的商业分析模型。这两个模型有什么区别吗?
- 感觉这两个模型应该是根据不用的实际需求,搭建的目的不一样,所以会有分类
- 维(dimension)中的level和hierarchy理解有点模糊
- Hierarchy表示的是一个维可以有不同的划分方式,level表示一个Hierarchy里面可以按照不同的方式分类,像有人喜欢年/季度/月,有人喜欢年/月,那我们可以建立这两个Hierarchy,这两个Hierarchy中的level一个就是三级别,一个就是两个级别,一个横向,一个纵向
- BI分析模型主要有两类,一类是数据仓库常见的多维模型,另一类是根据具体业务构建的商业分析模型。这两个模型有什么区别吗?