Spark测试题

1. spark 的四大组件下面哪个不是 ( D)
A.Spark Streaming B Mlib C Graphx D Spark R

2.下面哪个端口不是 spark 自带服务的端口 (C )
A.8080 B.4040 C.8090 D.18080

3.spark 1.4 版本的最大变化 (B )
A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配

4. Spark Job 默认的调度模式 ( A)
A FIFO B FAIR C 无 D 运行时指定

5.哪个不是本地模式运行的个条件 (D )
A spark.localExecution.enabled=true B 显式指定本地运行 C finalStage 无父 Stage D partition默认值

6.下面哪个不是 RDD 的特点 (C )
A. 可分区 B 可序列化 C 可修改 D 可持久化

7. 关于广播变量，下面哪个是错误的 ( D)
A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS

8. 关于累加器，下面哪个是错误的 (D )
A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型

9.Spark 支持的分布式部署方式中哪个是错误的 (D )
A standalone B spark on mesos C spark on YARN D Spark on local

10.Stage 的 Task 的数量由什么决定 ( A)

A.Partition B.Job C.Stage D.TaskScheduler

11.下面哪个操作是窄依赖 (B )
A.join B.filter C group D sort

12.下面哪个操作肯定是宽依赖 (C )
A map B flatMap C reduceByKey D sample

13.spark 的 master 和 worker 通过什么方式进行通信的？ (D )
A http B nio C netty D Akka

14 默认的存储级别 ( A)
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER

15 spark.deploy.recoveryMode 不支持那种 (D )
A.ZooKeeper B. FileSystem D NONE D hadoop

16.下列哪个不是 RDD 的缓存方法 (C )
A persist() B Cache() C Memory()

17.Task 运行在下来哪里个选项中 Executor 上的工作单元 (C )
A Driver program B. spark master C.worker node D Cluster manager

18.hive 的元数据存储在 derby 和 mysql 中有什么区别 (B )
A.没区别 B.多会话 C.支持网络环境 D数据库的区别

19.DataFrame 和 RDD 最大的区别 ( B)
A.科学统计支持B.多了 schema C.存储方式不一样 D.外部数据源支持

20.Master 的 ElectedLeader 事件后做了哪些操作 ( D)
A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE

21.下列哪一项不是applicationMaster的功能(D )

A.数据切分 B.为应用程序申请资源,并进一步分配给内部任务C.任务监控与容错D.所有应用的管理者

22.Spark RDD中没有的特性是(D)

A.位置优先B.分布式C.弹性D.固定大小

23.以下是Spark中executor的作用是( ABC)

A.保存计算的RDD分区数据B.向Driver反向注册C.接受Driver端发送来的任务Task,作用在RDD上进行执行D.做资源调度任务

24.Stage 的 Task 的数量不是由什么决定(BCD )

A.Partition B.Job C.Stage D.TaskScheduler

25.spark的特点包括(ABD)

A. 快速 B. 通用 C. 可延伸 D. 兼容性

26.Task 运行不在以下选项中 Executor 上的工作单元(ABD)

A.Driver program B.spark master C.worker node D.Cluster manager

27.关于spark容错说法错误的有（AD）

A.在容错机制中，如果一个节点死机了，而且运算窄依赖，则只要把丢失的父RDD分区重算即可，依赖于其他节点

B.宽依赖开销更大

C.Checkpoint可以节约大量的系统资源

D.RDD的容错机制是基于Spark Streaming的容错机制

28.SparkRdd 转换算子有(ABC)

A. map B. filter C. mapPartitions D. collect

29.下面哪些端口是 spark 自带服务的端口 (ABD)

A. 8080 B. 4040 C. 8090 D. 18080

30.关于spark中数据倾斜引发原因正确的选项有(ABCD)

A. key本身分布不均衡 B. 计算方式有误 C. 过多的数据在一个task里面 D. shuffle并行度不够

31.Spark driver的功能是什么(ABD)

A. 是作业的主进程 B. 负责了作业的调度 C. 负责向HDFS申请资源 D. 负责作业的解析

32.Master 的 ElectedLeader 事件后不做哪些操作(ABC)

A. 通知 driver B. 通知 worker C. 注册 application D. 直接 ALIVE

posted @ 2020-08-18 16:11 大鹏o 阅读(4538) 评论(0) 编辑收藏举报

刷新页面返回顶部

大鹏

Spark测试题

公告