1.1Spark是什么定义:ApacheSpark是用于大规模数据(large-scala data) 处理的统一(unified) 分析引擎
Soark 借鉴 MnReduce 思相发展而来,保图了其价布式并行计算的代占开改进了其明显的缺路。让中间数样存修在内存中接
高了运行速度、并提供丰富的操作数据的API提高了开发速度。
Spark是一款分布式内存计算的统一分析引擎
其特点就是对任意类型的数据进行自定义计算。
Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SOL语言去开发应用
程序计算数据。
Spark的适用面非常广泛,所以,被称之为 统一的 (适用面广) 的分析引擎(数据处理)
Spark提供多种运行模式,包括: 本地模式(单机) 本地模式就是以一个独立的进程,通过其内部的多个线程来模拟整个Spark运行时环境 Standalone模式(集群) Spark中的各个角色以独立进程的形式存在,并组成Spark集群环境 Hadoop YARN模式(集群) Spark中的各个角色运行在YARN的容器内部,并组成Spark集群环境 - Kubernetes模式(容器集群) Spark中的各个角色运行在Kubernetes的容器内部,并组成Spark集群环境 - 云服务模式(运行在云平台上)
Spark运行角色
Spark中由4类角色组成整个Spark的运行时环境
Master角色,管理整个集群的资源 类比与YARN的ResouceManager
Worker角色,管理单个服务器的资源 类比于YARN的NodeManager
Driver角色,管理 单个Spark任务在运行的时候的工作 类比于YARN的ApplicationMaster
Executor角色,单个任务运行的时候的一堆工作者,千活的. 类比于YARN的容器内运行的TASK
从2个层面划分
资源管理层面:
管理者: Spark是Master角色, YARN是ResourceManager
。工作中: Spark是Worker角色, YARN是NodeManager
从任务执行层面:
。某任务管理者: Spark是Driver角色, YARN是ApplicationMaster
,某任务执行者: Spark是Executor角色, YARN是容器中运行的具体工作进程
Spark解决什么问题? 海量数据的计算,可以进行离线批处理以及实时流计算 Spark有哪些模块? 核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming )、图计算(GraphX)、机器学习(MLlib) Spark特点有哪些? 速度快、使用简单、通用性强、多种模式运行
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!