摘要:
一、基本概念 1.RDD Resillient Distributed Dataset 弹性分布式数据集 2.DAG 反映RDD之间的依赖关系 3.Executor 进程驻守在机器上面,由进程派生出很多的线程,然后去执行任务。 4.应用application 5.任务 6.作业Job 一个应用程序提 阅读全文
摘要:
一、Spark简介 1.Spark的特点 特点1:运行速度快(内存计算,循环数据流、有向无环图设计机制) 把所有针对数据集的操作转换成一张有向无环图,整个执行引擎调度都是基于这个有向无环图,对这个有向无环图的后期操作,会进行拆分,分成不同的阶段,每一阶段分成不同的任务,再去分发到不同的机器上去执行。 阅读全文