【数仓面试】数仓分层架构、作用、数据采集层、数据存储与分析、数仓分层的好处
一、数仓为什么分层、怎么分层
1、数仓的作用
2、数仓的架构
3、数据采集层
4、数据存储与分析
对于hive的操作,最传统的方式是采用MapReduce
也可以通过SparkSQL操作hive
最常用的是使用Presto操作Hive
5、数仓分层的好处,为什么要对其进行分层
对数据仓库有一定的要求
高效率:不同的粒度
高质量:数据清洗、ETL加工,在各层进行数据治理,避免用户做出错误决策
高扩展性:存算能力、支持组件式业务扩展能力,不能重建数据仓库【数据建模的合理性】
避免整个数据仓库都需要变更,影响ETL过程
6、为什么要对数仓分层
原因:大量预处理提高效率,增强可扩展性,分布完成操作,简化业务
二、描述DWD层的设计思路
1、分层的举例
ODS
DWD:数据主题层/数据标准化
DWS
ADS
更多的是五层结构或更多
2、数据标准层的作用
用于数据治理
3、DWD的设计思路,数据模型如何建模
4、业务流程举例
三、拉链表为什么要进行分区,分区的目的是什么
四、介绍一下每一层的设计思路,并举个例子
五、框架原理、基础少、有时考hive的函数
本文来自博客园,作者:哥们要飞,转载请注明原文链接:https://www.cnblogs.com/liujinhui/p/15786306.html