Spark介绍

Spark是什么
Spark和Hadoop技术栈的区别
Spark四大特点
Spark 框架模块
Spark的运行模式
Spark的架构角色
- YARN角色
- Spark角色
面试题

Spark是什么

Apache Spark是一个开源的大数据处理框架，旨在提供高性能、易用性和通用性，使数据分析和处理变得更加容易。

Spark 是加州大学伯克利分校AMP实验室（Algorithms Machines and People Lab）开发的通用大数据处理框架。
Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing，
该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集（即 RDD）的概念。
RDD 是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，并且有一定的容错方式。而这也
是整个 Spark 的核心数据结构，Spark 整个平台都围绕着RDD进行。

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。

简而言之，Spark 借鉴了 MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark可以计算：结构化、半结构化、非结构化等各种类型的数据结构，同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。

Spark和Hadoop技术栈的区别

尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop：

在计算层面，Spark相比较MR（MapReduce）有巨大的性能优势，但至今仍有许多计算工具基于MR构架，比如非常成熟的Hive
Spark仅做计算，而Hadoop生态圈不仅有计算（MR）也有存储（HDFS）和资源管理调度（YARN），HDFS和YARN仍是许多大数据体系的核心架构。【现在一般是把计算（MR）替换为Spark做计算，依旧使用 HDFS 做存储和 YARN 做资源管理调度】

Spark四大特点

速度快
由于Apache Spark支持内存计算，并且通过DAG（有向无环图）执行引擎支持无环数据流，所以官方宣称其在内存中的运算速度要比 Hadoop 的 MapReduce 快100倍，在硬盘中要快10倍。

Spark处理数据与MapReduce处理数据相比，有如下两个不同点：
- 其一：Spark处理数据时，可以将中间处理结果数据存储到内存中；
- 其二：Spark 提供了非常丰富的算子(API), 可以做到复杂任务在一个Spark 程序中完成
易于使用
Spark 的版本已经更新到 Spark 3.2.0（截止日期2021.10.13），支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。为了兼容Spark2.x企业级应用场景，Spark仍然持续更新Spark2版本。
通用性强
在 Spark 的基础上，Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库，我们可以在一个应用中无缝地使用这些工具库。

多种运行方式
Spark 支持多种运行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的独立运行模式，同时也可以运行在云Kubernetes（Spark 2.3开始支持）上。

对于数据源而言，Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

Spark 框架模块

整个Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上

Spark Core：Spark的核心，Spark核心功能均由Spark Core模块提供，是Spark运行的基础。Spark Core以RDD为数据抽象，提供Python、Java、Scala、R语言的API，可以编程进行海量离线数据批处理计算。
SparkSQL：基于SparkCore之上，提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理，SparkSQL本身针对离线计算场景。同时基于SparkSQL，Spark提供了StructuredStreaming模块，可以以SparkSQL为基础，进行数据的流式计算。
SparkStreaming：以SparkCore为基础，提供数据的流式计算功能。

SparkStreaming相比StructuredStreaming诞生更早，但是SparkStreaming不支持 ‘事件时间窗口’，同时不是一个完整的流计算模块，它的流计算是以“微批”的模式提供，因此，SparkStreaming是有一定缺陷的，为了弥补这个缺陷，Spark基于SparkSQL，提供了StructuredStreaming模块，来去替代SparkStreaming完成流式计算的功能，所以，如果需要进行流计算的话，还是推荐StructuredStreaming模块

MLlib：以SparkCore为基础，进行机器学习计算，内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。
GraphX：以SparkCore为基础，进行图计算，提供了大量的图计算API，方便用于以分布式计算模式进行图计算。

Spark的运行模式

Spark提供多种运行模式，包括：

本地模式（单机）【Local，开发和测试】
本地模式就是以一个独立的进程，通过其内部的多个线程来模拟整个Spark运行时环境。

本质：启动一个JVM Process进程(一个进程里面有多个线程)，执行任务Task

Local模式可以限制模拟Spark集群环境的线程数量, 即Local[N] 或 Local[*]

其中N代表可以使用N个线程，每个线程拥有一个cpu core。如果不指定N，则默认是1个线程（该线程有1个core）。通常Cpu有几个Core，就指定几个线程，最大化利用计算能力.

如果是local[*]，则代表 Run Spark locally with as many worker threads as logical cores on your machine.按照Cpu最多的Cores设置线程数

Standalone模式（集群）
Spark中的各个角色以独立进程的形式存在，并组成Spark集群环境。
Hadoop YARN模式（集群）
Spark中的各个角色运行在YARN的容器内部，并组成Spark集群环境。
Kubernetes模式（容器集群）
Spark中的各个角色运行在Kubernetes的容器内部，并组成Spark集群环境。
云服务模式（运行在云平台上)

Spark的架构角色

YARN角色

YARN主要有4类角色，从2个层面去看：
（1）资源管理层面

集群资源管理者：ResourceManager
单机资源管理者：NodeManager

（2）任务计算层面

单任务管理者：ApplicationMaster
单任务执行者：Task（容器内计算框架的工作角色）

Spark角色

Spark也有4类角色，从2个层面去看：
（1）资源管理层面

集群资源管理者：Master
单机资源管理者：Worker

（2）任务计算层面

单任务管理者：Driver
单任务执行者：Executor（容器内计算框架的工作角色）

面试题

Hadoop的基于进程的计算和Spark基于线程方式优缺点？
答案：Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享数据，执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中，造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率，Spark采用了线程的最小的执行单位，但缺点是线程之间会有资源竞争。

posted @ 2023-09-29 23:30 言非阅读(85) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

言非の博客

机器学习、复杂网络