spark和hadoop的区别

hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System ，HDFS）。HDFS 有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。
Hadoop的框架最核心的设计就是：HDFS 和 Map Reduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark 拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。

原文链接：https://blog.csdn.net/u010899985/article/details/81503542

posted @ 2022-01-27 21:43 靠谱杨阅读(280) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Spark-RDD编程

· Spark的基本原理

· Hadoop和Spark联系与区别

· hadoop和spark

· Spark基本知识

历史上的今天：
2021-01-27 Android Button 点击事件

公告

您的浏览器不兼容canvas

昵称：靠谱杨
园龄： 4年8个月
粉丝： 31
关注： 13

+加关注

2025年3月

日

一

二

三

四

五

六

靠谱杨

文章内出现的公众号名称可能有误请统一搜索：靠谱杨的秘密基地；我的github：https://github.com/SAH01

spark和hadoop的区别

公告

搜索

常用链接

我的标签

合集 (1)

随笔分类 (371)

随笔档案 (578)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏

靠谱杨

文章内出现的公众号名称可能有误请统一搜索：靠谱杨的秘密基地； 我的github：https://github.com/SAH01

spark和hadoop的区别

公告

搜索

常用链接

我的标签

合集 (1)

随笔分类 (371)

随笔档案 (578)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏

文章内出现的公众号名称可能有误请统一搜索：靠谱杨的秘密基地；我的github：https://github.com/SAH01