Spark学习笔记

1.什么是Spark

spark是一种快速，通用，可扩展的大数据分析引擎，集成了大数据相关的各种能力。Hadoop的中间结果需要存储在硬盘上，这就产生了较高的延迟。而Spark基于内存计算，解决了这个延迟的速度问题。Spark本身可以直接读写Hadoop上任何格式数据，这使得批处理更加快速。

2.为什么要学习Spark

spark是mapredurce的替代方案，而且兼容HDFS,Hive,可融入Hadoop的生态系统，以弥补Mapredurce的不足。

3.Spark角色介绍

spark架构使用了分布式计算中的master-salve模型，master是集群中有master进程的节点，salve是集群中含有worker进程的节点。

a：Driver Program：运行main函数并且新建SparkContext的程序。

b：Application：基于Spark的应用程序，包含了driver程序和集群上的executor。

c：Cluster Manager：指的是在集群上获取资源的外部服务。目前有三种类型：

1：Standalone：spark原生的资源管理，由Master负责资源的分配

2：Apache Mesos：与hadoop MR兼容性良好的一种资源调度框架

3：Hadoop Yarn：主要是指Yarn中的ResourceManager

d：WorkNode：集群中任何可以运行Application代码的节点，在Standalone模式中指的是通过salves文件配置的work节点，在Spark on Yarn模式中指的就是NodeManager节点。

e：Executor：是在一个worker node上为某个应用启动的一个进程，还进程负责执行任务，并且负责将数据存在内存或者磁盘上。每个应用都有各自独立的executor。

f：Task：被送到某个executor上的工作单元。

posted @ 2018-12-03 09:54 煮酒一笑观花阅读(124) 评论(0) 编辑收藏举报

刷新页面返回顶部

煮酒一笑观花