2015年1月31日
摘要: 下面主要说明作业提交的的具体运行环境,这里从SparkContext中的runJob方法开始跟踪它的源码过程。下面的图简要的描述了Job运行的过程runJob的源码如下:这里主要有三个函数:Clean(func):主要是清理关闭一些内容,比如序列化。runJob(...):将任务提交给DagSche... 阅读全文
posted @ 2015-01-31 20:38 Spark_莫然 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 这里主要说明作业提交的过程源码。SparkSubmit在org.apache.spark.deploy中,submit是一个单独的进程,首先查看它的main方法:createLaunchEnv方法中设置了一些配置参数:如返回值、集群模式、运行环境等。这里主要查看Client的集群模式。下面看下作业提... 阅读全文
posted @ 2015-01-31 20:26 Spark_莫然 阅读(244) 评论(0) 推荐(0) 编辑
摘要: RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 -A list of partitions 分片列表,数据能为切分才好做并行计算 -A function for... 阅读全文
posted @ 2015-01-31 20:04 Spark_莫然 阅读(306) 评论(0) 推荐(0) 编辑