摘要: 1.概述 众所周知,RDD有五大特性. i). A list of partitions RDD是由多个分区(partition)组成的一个集合 ii). A function for computing each split 对RDD的每一个计算,等于对这个RDD的每一个分区执行一个计算 iii) 阅读全文
posted @ 2018-07-17 17:28 NightPxy 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 1.概述 由 Spark 集群篇 ,每个Spark应用(其中包含了一个SparkContext实例),都会运行一些独占的执行器(executor)进程.集群调度器会提供对这些 Spark 应用的资源调度. 而在各个Spark应用内部,各个线程可能并发地通过action算子提交多个Spark作业(jo 阅读全文
posted @ 2018-07-17 11:53 NightPxy 阅读(988) 评论(0) 推荐(0) 编辑
摘要: 1.Spark的集群模式 1.1 集群中的组件 1.1.1 driver 一个Spark应用本身在集群中是作为一个独立进程运行的.它在main程序中通过SparkContext来进行协调.这个独立进程就是driver端 1.1.2 executor 为了运行在集群上.driver端的SparkCon 阅读全文
posted @ 2018-07-17 11:15 NightPxy 阅读(977) 评论(0) 推荐(0) 编辑