spark
一. 单选题(共5题,10分)
1. (单选题, 2分) 在实际应用中,大数据处理不包括哪些类型?B
A 基于实时数据流的数据处理
B 基于离线数据的处理
C 复杂的批量数据处理
D 基于历史数据的交互式查询
2. (单选题, 2分) 下列关于Spark的描述,错误的是哪一项?D
ASpark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
BSpark在2014年打破了Hadoop保持的基准排序纪录.
CSpark用十分之一的计算资源,获得了比Hadoop快3倍的速度
DSpark运行模式单一
3. (单选题, 2分) 下列说法哪项有误?C
A 相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
B Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
C Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
D Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
4. (单选题, 2分) 下列说法错误的是?A
A RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task
B Application是用户编写的Spark应用程序
C 一个Job包含多个RDD及作用于相应RDD上的各种操作
D Directed Acyclic Graph反映RDD之间的依赖关
5. (单选题, 2分) 下列关于RDD说法,描述有误的是?C
A 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
B 每个RDD可分成多个分区,每个分区就是一个数据集片段
C RDD是可以直接修改的
D RDD提供了一种高度受限的共享内存模型
二. 多选题(共5题,10分)
6. (多选题, 2分) Apache软件基金会最重要的三大分布式计算系统开源项目ABC
A Hadoop
B Spark
C Storm
D Hive
7. (多选题, 2分) Spark具有的主要特点包括:ABCD
A 运行模式多样
B 运行速度快
C 容易使用
D 通用性
8. (多选题, 2分) Scala的特性包括:BCD
A Scala具备强大的并发性
B Scala语法复杂
C Scala兼容Java
D 运行速度快
9. (多选题, 2分) Spark最主要的优点是()CD
A 计算模式只能是MapReduce
B Spark提供了内存计算
C 提供了单一数据集操作类型
D 基于DAG的任务调度执行机制
10. (多选题, 2分) Spark所采用Executor的优点包括:AD
A 利用多线程来执行具体的任务
B 多线程之间的数据共享
C 存储模块全部都只能在内存中完成
D Executor中有一个BlockManager存储模块,有效减少IO开销
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统