大数据面试题V3.0 -- Spark面试题（约9.8w字）

Spark面试题（约9.8w字）

Spark的任务执行流程
Spark的运行流程
Spark的作业运行流程是怎么样的?
Spark的特点
Spark源码中的任务调度
Spark作业调度
Spark的架构
Spark的使用场景
Spark on standalone模型、YARN架构模型(画架构图)
Spark的yarn-cluster涉及的参数有哪些?
Spark提交job的流程
Spark的阶段划分
Spark处理数据的具体流程说下
Sparkjoin的分类
Spark map join的实现原理
介绍下Spark Shuffle及其优缺点
什么情况下会产生Spark Shuffle?
为什么要Spark Shuffle?
Spark为什么快?
Spark为什么适合迭代处理?
Spark数据倾斜问题，如何定位，解决方案
Spark的stage如何划分?在源码中是怎么判断属于Shuffle Map Stage或Result Stage的?
Spark join在什么情况下会变成窄依赖?
Spark的内存模型?
Spark分哪几个部分(模块)?分别有什么作用(做什么，自己用过哪些，做过什么)?
RDD的宽依赖和窄依赖，举例一些算子
Spark SQL的GroupBy会造成窄依赖吗?
GroupBy是行动算子吗
Spark的宽依赖和窄依赖，为什么要这么划分?
说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action?常用的列举一些，说下算子原理
Spark的哪些算子会有shuffle过程?
Spark有了RDD，为什么还要有Dataform和DataSet?
Spark的RDD、DataFrame、DataSet、DataStream区别?
Spark的Job、Stage、Task分别介绍下，如何划分?
Application、job、Stage、task之间的关系
Stage内部逻辑
为什么要根据宽依赖划分Stage?为
什么要划分Stage
Stage的数量等于什么
对RDD、DAG和Task的理解
DAG为什么适合Spark?
介绍下Spark的DAG以及它的生成过程
DAGScheduler如何划分?干了什么活?
Spark容错机制?
RDD的容错
Executor内存分配?
Spark的batchsize，怎么解决小文件合并问题?
Spark参数(性能)调优
介绍一下Spark怎么基于内存计算的
说下什么是RDD(对RDD的理解)?RDD有哪些特点?说下知道的RDD算子
RDD底层原理
RDD属性
RDD的缓存级别?
Spark广播变量的实现和原理?
reduceByKey和groupByKey的区别和作用?
reduceByKey和reduce的区别?
使用reduceByKey出现数据倾斜怎么办?
Spark SQL的执行原理?
Spark SQL的优化?
说下Spark checkpoint
Spark SQL与DataFrame的使用?
Sparksql自定义函数?怎么创建DataFrame?
HashPartitioner和RangePartitioner的实现
Spark的水塘抽样
DAGScheduler、TaskScheduler、SchedulerBackend实现原理
介绍下Sparkclient提交application后，接下来的流程?
Spark的几种部署方式
在Yarn-client情况下，Driver此时在哪
Spark的cluster模式有什么好处
Driver怎么管理executor
Spark的map和flatmap的区别?
Spark的cache和persist的区别?它们是transformaiton算子还是action算子?
Saprk Streaming从Kafka中读取数据两种方式?
Spark Streaming的工作原理?
Spark Streaming的DStream和DStreamGraph的区别?
Spark输出文件的个数，如何合并小文件?
Spark的driver是怎么驱动作业流程的?
Spark SQL的劣势?
介绍下Spark Streaming和Structed Streaming
Spark为什么比Hadoop速度快?
DAG划分Spark源码实现?
Spark Streaming的双流join的过程，怎么做的?
Spark的Block管理
Spark怎么保证数据不丢失
Spark SQL如何使用UDF?
Spark温度二次排序
Spark实现wordcount
Spark Streaming怎么实现数据持久化保存?
Spark SQL读取文件，内存不够使用，如何处理?
Spark的lazy体现在哪里?
Spark中的并行度等于什么
Spark运行时并行度的设署
Spark SQL的数据倾斜
Spark的exactly-once
Spark的RDD和partition的联系
park 3.0特性
Spark计算的灵活性体现在哪里

posted @ 2022-06-28 15:04 CHANG_09 阅读(286) 评论(0) 编辑收藏举报

刷新页面返回顶部

CHANG_09

大数据面试题V3.0 -- Spark面试题（约9.8w字）

Spark面试题（约9.8w字）

公告