01_Spark 基本介绍

 


1. Spark 是什么

##### 1. Spark 是什么
`
Apache Spark is a unified analytics engine for large-scale data processing
    1. spark 是一个 统一的 用来分析大规模数据的 分析引擎 
    2. 它提供了 各种语言的API(Java、Scala、Python 和 R) 来操作spark
    3. 它提供了 高级工具 SparkSQL、MLlib、GraphX、SparkStreaming
`

2. 开发 Spark 的目的是什么

##### 2. 开发 Spark 的目的是什么?
`
    1. 用来 替换 Hadoop中的 MapReduce
`

3. Spark 优于 Mr 之处

复制代码

##### 3. Spark 优于 Mr 之处
`
1. 多个Job之间的 数据通信
Spark 多个Job之间的 数据通信 是基于内存的
Spark 只有在 shuffle 的时候 会将数据写入磁盘
MR 多个Job之间的 数据通信 是基于磁盘的
Mr 中 多个Mr 任务时,数据交互 也要依赖磁盘
2. 处理数据的算子
Spark 基于RDD 提供了丰富的算子
可以 在内存中对数据集 进行多次迭代,用来支持复杂的计算
3. 启动任务时间
Spark Task 的启动时间快 => Spark 采用fork线程的方式
Mr Task 的启动时间慢 => Mr 采用创建进程的方式
4. 缓存机制
Spark 的缓存机制 比 Mr的缓存机制 高效
`
复制代码

4. Spark 核心模块 

##### 4. Spark 核心模块
`
底层支持 => Spark Core
上层应用 => SparkSQL、SparkStreaming、Spark MLilib、Spark Graphx
`
posted @   学而不思则罔!  阅读(44)  评论(0编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· 字符编码:从基础到乱码解决
· SpringCloud带你走进微服务的世界
点击右上角即可分享
微信分享提示