【数仓面试】数仓分层架构、作用、数据采集层、数据存储与分析、数仓分层的好处

一、数仓为什么分层、怎么分层

1、数仓的作用

 

2、数仓的架构

 

3、数据采集层

 

4、数据存储与分析

 

 

 

 对于hive的操作,最传统的方式是采用MapReduce

也可以通过SparkSQL操作hive

最常用的是使用Presto操作Hive

5、数仓分层的好处,为什么要对其进行分层

对数据仓库有一定的要求

 

高效率:不同的粒度

高质量:数据清洗、ETL加工,在各层进行数据治理,避免用户做出错误决策

高扩展性:存算能力、支持组件式业务扩展能力,不能重建数据仓库【数据建模的合理性】

避免整个数据仓库都需要变更,影响ETL过程

6、为什么要对数仓分层

 

 原因:大量预处理提高效率,增强可扩展性,分布完成操作,简化业务

二、描述DWD层的设计思路

1、分层的举例

ODS

DWD:数据主题层/数据标准化

DWS

ADS

更多的是五层结构或更多

2、数据标准层的作用

用于数据治理

3、DWD的设计思路,数据模型如何建模

4、业务流程举例

三、拉链表为什么要进行分区,分区的目的是什么

四、介绍一下每一层的设计思路,并举个例子

五、框架原理、基础少、有时考hive的函数

posted @ 2022-01-10 22:19  哥们要飞  阅读(1253)  评论(0编辑  收藏  举报