【博学谷学习记录】超强总结，用心分享 | spark基础了解

【博学谷IT技术支持】
Spark 是一款用于大规模数据处理分析式的分布引擎

MR的弊端：

计算效率慢
使用API相对比较低级
迭代计算非常不方便

什么是迭代计算：

在计算过程中，需要将计算划分为N个阶段，每个阶段直接互相依赖，后一个阶段必须等待前一个阶段执行完成，然后才能执行后一个阶段

SparK效率优于MR的原因：

Spark提供全新的数据结构：RDD支持在内存中进行计算，部分迭代操作支持内存迭代
Spark程序是基于线程来运行的，而MR是基于进程来运行的，线程的启动和销毁是优于进程的

发展历史:

2009出现
14年称为顶级项目
16年2.0
19年3.0

Spark的特点

运行速度快
易用性
通用性

Spark是由多个组件组成，主要有Spark Core, Spark SQL, Spark Streaming, Spark MLib, Spark Graphx

spark Core: Spark的核心，学习spark的基础,学习spark Core主要学习RDD主要维护RDD数据结构
    提供RDD各种API
    提供了与内存相关的API
  
Spark SQL: 通过SQL的方式来操作Spark

Spark streaming:Spark用于进行流式计算(实时计算)的组件 暂不学习在国内，整个实时部分，主要是应用在F1ink，而非Spark Streaming ,因为Spark的流并不是真正意义上流式计算，为微批处理

Spark MLib: Spark用于进行机器学习的库专门针对特定人群

Spark Graphx: Spark用于进行图计算的库专门针对特定人群

随处运行

Spark 是一个主从分布式高可用集群框架

主节点：
    管理众多的从节点
    负责资源的分配管理
    负责接收客户端提交任务请求，负责分配Dirver程序启动在那个从节点上
    
从节点：
    1- 和主节点保持心跳，汇报自己的资源信息
    2- 负责接收Driver分配的任务，进行任务的执行
    3- 负责启动Driver程序


1- Spark集群架构:  是一个主从分布式高可用集群架构
2- 明确集群中主 从节点的作用
3- 明确主节点是如何基于zk实现主备切换: 临时节点 + 定时检测

spark-submi执行方式

./spark-submit --master local[*]
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_05_pyspark_wd.py

Driver进程:类似于 MR中 ApplicationMaster
主要负责:任务的资源申请，任务分配 任务进度的管理，等 基本与任务相关的工作 都是交给Driver来处理

Executor程序:执行器(理解为是一个线程池)spark最终执行的线程都是运行在executor上，executor是可以有多个的，每个里面都是可以有多个线程的

Spark-Submit的相关参数

// 表示应用运行的模式
--master
表示运行的地方
--deploy-mode

Spark Core

核心： 采用多节点处理，将一个任务拆分为N多个子任务，分布运行在不同的节点上进行并行的处理，各个节点计算完成后，将结果汇总处理即可。

RDD是一个抽象的数据模型，RDD本身并不存储任何的数据，仅仅是一个数据传输的管道,在这个管道中,作为使用者,只需要告知给RDD应该从哪里读,中间需要进行什么样的转换逻辑操作，以及最后需要将结果输出到什么位置即可，一旦启动后，RDD会根据用户设定的规则,完成整个处理操作

RDD的五大特性和五大特点

五大特性

1- (必须的) RDD可分区的
2- (必须的) 每一个RDD都是由一个计算函数产生的
3- (必须的)RDD之间是存在着依赖关系
4- (可选的) 对于KV类型的数据，是存在分区函数,对于KV类型的RDD默认是基于Hash 分区方案
5- (可选的) 移动数据不如移动计算(让计算程序离数据越近越好)

posted @ 2023-02-05 23:01 牛牛牛牛牛牛牛牛阅读(56) 评论(0) 编辑收藏举报

刷新页面返回顶部

木早长泉

【博学谷学习记录】超强总结，用心分享 | spark基础了解

公告