Spark简介

Spark

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月18日发布spark3.0.0

特点

Hadoop的MapReduce作为第一代分布式大数据计算引擎，在设计之初，受当时计算机硬件条件所限（内存、磁盘、cpu等），为了能够计算海量数据，需要将中间结果保存到HDFS中，那么就要频繁读写HDFS从而使得网络IO和磁盘IO成为性能瓶颈。Spark可以将中间结果写到本地磁盘或将中间cache到内存中，节省了大量的网络IO和磁盘IO开销。并且Spark使用更先进的DAG任务调度思想，可以将多个计算逻辑构建成一个有向无环图，并且还会将DAG先进行优化后再生成物理执行计划，同时 Spark也支持数据缓存在内存中的计算。性能比Hadoop MapReduce快100倍。即便是不将数据cache到内存中，其速度也是MapReduce10 倍以上。

• Ease of Use：简洁易用

Spark支持 Java、Scala、Python和R等编程语言编写应用程序，大大降低了使用者的门槛。自带了80多个高等级操作算子，并且允许在Scala，Python，R 的使用命令进行交互式运行，可以非常方便的在Spark Shell中地编写spark程序。

• Generality：通用、全栈式数据处理

Spark提供了统一的大数据处理解决方案，非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。同时Spark还支持SQL，大大降低了大数据开发者的使用门槛，同时提供了SparkStream和Structed Streaming可以处理实时流数据；MLlib机器学习库，提供机器学习相关的统计、分类、回归等领域的多种算法实现。其高度封装的API 接口大大降低了用户的学习成本；Spark GraghX提供分布式图计算处理能力；PySpark支持Python编写Spark程序；SparkR支持R语言编写Spark程序。

• Runs Everywhere：可以运行在各种资源调度框架和读写多种数据源

Spark支持的多种部署方案：Standalone是Spark自带的资源调度模式；Spark可以运行在Hadoop的YARN上面；Spark 可以运行在Mesos上（Mesos是一个类似于YARN的资源调度框架）；Spark还可以Kubernetes实现容器化的资源调度

丰富的数据源支持。Spark除了可以访问操作系统自身的本地文件系统和HDFS之外，还可以访问 Cassandra、HBase、Hive、Alluxio（Tachyon）以及任何 Hadoop兼容的数据源。这极大地方便了已经的大数据系统进行顺利迁移到Spark。

Spark与MapReduce的对比

面试题：MapReduce和Spark的本质区别：

MR只能做离线计算，如果实现复杂计算逻辑，一个MR搞不定，就需要将多个MR按照先后顺序连成一串，一个MR计算完成后会将计算结果写入到HDFS中，下一个MR将上一个MR的输出作为输入，这样就要频繁读写HDFS，网络IO和磁盘IO会成为性能瓶颈。从而导致效率低下。
spark既可以做离线计算，又可以做实时计算，提供了抽象的数据集（RDD、Dataset、DataFrame、DStream）
有高度封装的API，算子丰富，并且使用了更先进的DAG有向无环图调度思想，可以对执行计划优化后在执行，并且可以数据可以cache到内存中进行复用，shuffle时，数据可以不排序

注意：MR和Spark在Shuffle时数据都落本地磁盘

posted @ 2023-06-25 23:17 _泡泡阅读(119) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Spark的一些重要概念

· Spark编程基础

· Spark基本知识

· 寒假学习day1

· Spark（一）概述

阅读排行：
· 一个费力不讨好的项目，让我损失了近一半的绩效！
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库

公告

昵称： _泡泡
园龄： 5年7个月
粉丝： 7
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

Spark简介

Spark

特点

Spark与MapReduce的对比

面试题：MapReduce和Spark的本质区别：

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论