摘要:
数仓面试题(约3.6w字) 介绍下数据仓库 数仓的基本原理 数仓架构 数据仓库分层(层级划分),每层做什么?分层的好处? 数据分层是根据什么? 数仓分层的原则与思路 数仓建模常用模型吗?区别、优缺点? 星型模型和雪花模型的区别?应用场景?优劣对比 数仓建模有哪些方式? 数仓建模的流程? 维度建模的步 阅读全文
摘要:
数据库面试题(约3.9w字) 数据库中的事务是什么,MySQL中是怎么实现的 MySQL事务的特性? 数据库事务的隔离级别?解决了什么问题?默认事务隔离级别? 脏读,幻读,不可重复读的定义 MySQL怎么实现可重复读? 数据库第三范式和第四范式区别? MySQL的存储引擎? 数据库有哪些锁? 说下悲 阅读全文
摘要:
Flink面试题(约4.7w字) Flink架构 Flink的窗口了解哪些,都有什么区别,有哪几种?如何定义? Flink窗口函数,时间语义相关的问题 介绍下Flink的watermark(水位线),watermark需要实现哪个实现类,在何处定义?有什么作用? Flink的窗口(实现)机制 说下F 阅读全文
摘要:
Spark面试题(约9.8w字) Spark的任务执行流程 Spark的运行流程 Spark的作业运行流程是怎么样的? Spark的特点 Spark源码中的任务调度 Spark作业调度 Spark的架构 Spark的使用场景 Spark on standalone模型、YARN架构模型(画架构图) 阅读全文
摘要:
HBase面试题(约2.8w字) 介绍下HBase HBase是一个分布式的,面向列的开源数据库。它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数 阅读全文
摘要:
Kafka面试题(约5.5w字) 介绍下Kafka,Kafka的作用?Kafka的组件?适用场景? Kafka是分布式发布-订阅消息系统, 它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分, Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。 阅读全文
摘要:
YARN部分 介绍下YARN Yet Another Resource Negotiator,另一种资源协调者,是一种新的 Hadoop 资源管理器它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN有几个模块 阅读全文
摘要:
Hadoop基础 介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点 高可靠性 高效性 高可扩展性 高容错性 低成本 说下Hadoop生态圈组件及其作用 1,HDFS (分布式文件系统) 2,资源管理器(YARN 和 mesos) 3,mapr 阅读全文