Spark开始

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。
简而言之,Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提
高了运行速度、并提供丰富的操作数据的API提高了开发速度。
Spark是一款分布式内存计算的统一分析引擎。
其特点就是对任意类型的数据进行自定义计算。
Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用
程序计算数据。
Spark的适用面非常广泛,所以,被称之为 统一的(适用面广)的分析引擎(数据处理)

 

尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop
 在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR构架,比如非常成熟的Hive
 Spark仅做计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据
体系的核心架构。
posted @   阿飞藏泪  阅读(4)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
历史上的今天:
2023-01-10 Request请求转发
2023-01-10 关于定义变量写在主函数外还是主函数里边
2023-01-10 安卓sdk下载
2023-01-10 请求数据中文乱码2
2023-01-10 请求中文乱码1
2023-01-10 request获取请求数据的方法
1 2 3
4
点击右上角即可分享
微信分享提示