Spark开始

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。

简而言之，Spark 借鉴了 MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提

高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark是一款分布式内存计算的统一分析引擎。

其特点就是对任意类型的数据进行自定义计算。

Spark可以计算：结构化、半结构化、非结构化等各种类型的数据结构，同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用

程序计算数据。

Spark的适用面非常广泛，所以，被称之为统一的（适用面广）的分析引擎（数据处理）

尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop

 在计算层面，Spark相比较MR（MapReduce）有巨大的性能优势，但至今仍有许多计算工具基于MR构架，比如非常成熟的Hive

 Spark仅做计算，而Hadoop生态圈不仅有计算（MR）也有存储（HDFS）和资源管理调度（YARN），HDFS和YARN仍是许多大数据

体系的核心架构。

posted @ 2024-01-10 16:21 阿飞藏泪阅读(4) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Spark四大特点

· sparkSQL

· Spark介绍

· Spark（一）概述

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？

历史上的今天：
2023-01-10 Request请求转发
2023-01-10 关于定义变量写在主函数外还是主函数里边
2023-01-10 安卓sdk下载
2023-01-10 请求数据中文乱码2
2023-01-10 请求中文乱码1
2023-01-10 request获取请求数据的方法

昵称：阿飞藏泪
园龄： 2年8个月
粉丝： 23
关注： 17

2025年3月

日

一

二

三

四

五

六

daitu66