Spark

1. (单选题, 2分)在实际应用中，大数据处理不包括哪些类型？

A. 基于实时数据流的数据处理
B. 基于离线数据的处理
C. 复杂的批量数据处理
D. 基于历史数据的交互式查询

正确答案: B:基于离线数据的处理;

2. (单选题, 2分)下列关于Spark的描述，错误的是哪一项？

A. Spark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发
B. Spark在2014年打破了Hadoop保持的基准排序纪录.
C. Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度
D. Spark运行模式单一

正确答案: D:Spark运行模式单一;

3. (单选题, 2分)下列说法哪项有误？

A. 相对于Spark来说，使用Hadoop进行迭代计算非常耗资源
B. Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据
C. Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
D. Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案

正确答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;

4. (单选题, 2分)下列说法错误的是？

A. RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task
B. Application是用户编写的Spark应用程序
C. 一个Job包含多个RDD及作用于相应RDD上的各种操作
D. Directed Acyclic Graph反映RDD之间的依赖关

正确答案: A:RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task;

5. (单选题, 2分)下列关于RDD说法，描述有误的是？

A. 一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合
B. 每个RDD可分成多个分区，每个分区就是一个数据集片段
C. RDD是可以直接修改的
D. RDD提供了一种高度受限的共享内存模型

正确答案: C:RDD是可以直接修改的;

6. (多选题, 2分)Apache软件基金会最重要的三大分布式计算系统开源项目

A. Hadoop
B. Spark
C. Storm
D. Hive

正确答案: ABC:Hadoop; Spark; Storm;

7. (多选题, 2分)Spark具有的主要特点包括：

A. 运行模式多样
B. 运行速度快
C. 容易使用
D. 通用性

正确答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;

8. (多选题, 2分)Scala的特性包括：

A. Scala具备强大的并发性
B. Scala语法复杂
C. Scala兼容Java
D. 运行速度快

正确答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;

9. (多选题, 2分)Spark最主要的优点是（）

A. 计算模式只能是MapReduce
B. Spark提供了内存计算
C. 提供了单一数据集操作类型
D. 基于DAG的任务调度执行机制

正确答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;

10. (多选题, 2分)Spark所采用Executor的优点包括：

A. 利用多线程来执行具体的任务
B. 多线程之间的数据共享
C. 存储模块全部都只能在内存中完成
D. Executor中有一个BlockManager存储模块，有效减少IO开销

正确答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块，有效减少IO开销;

posted @ 2024-11-08 22:11 涨涨涨张阅读(22) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 大数据概述

· 分布式数据库Hbase

· spark

· 孙静大数据作业7 Spark

· 作业Spark

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统

公告

昵称：涨涨涨张
园龄： 1年11个月
粉丝： 0
关注： 6

+加关注

2025年3月

日

一

二

三

四

五

六

zh-ang-zhang