上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 20 下一页
  2020年5月11日
摘要: 上篇已经降到AppClient找Master进行注册,本章主要解析Master的原理和源码解析 1、Master的主备切换原理 package org.apache.spark.deploy.master completeRecovery,过滤没有响应的worker,app,drivers,从内存缓 阅读全文
posted @ 2020-05-11 14:26 清浊 阅读(343) 评论(0) 推荐(0) 编辑
  2020年5月10日
摘要: 源码解析 主构造函数代码 private[spark] var (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master) createTaskScheduler,创建TaskScheduler 阅读全文
posted @ 2020-05-10 22:32 清浊 阅读(225) 评论(0) 推荐(0) 编辑
  2020年5月9日
摘要: 1、基于Spark内核架构也就是standalone提交,基于自己的Master-worker集群。Driver在本地启动, 2、基于yarn的yarn-cluster模式,要先分配container,然后在yarn进群的一个nodeManager上启动Driver。 3、基于yarn的yarn-c 阅读全文
posted @ 2020-05-09 17:34 清浊 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 1、Application,自己编写的spark程序。2、spark-submit,利用shell来提交自己的spark程序3、Driver,standalone提交方式,会通过反射构造出一个Driver进程。Driver进程会执行application程序。4、SparkContext,Drive 阅读全文
posted @ 2020-05-09 17:05 清浊 阅读(183) 评论(0) 推荐(0) 编辑
  2020年5月8日
摘要: package cn.spark.study.core; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD 阅读全文
posted @ 2020-05-08 13:30 清浊 阅读(293) 评论(0) 推荐(0) 编辑
摘要: Spark一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Spark为此提供了两种共享变量,一种是Broadc 阅读全文
posted @ 2020-05-08 12:49 清浊 阅读(332) 评论(0) 推荐(0) 编辑
  2020年5月7日
摘要: 多次对某个RDD进行transformation或者action,如果没有做RDD持久化,那么每次都要重新计算一个RDD,会消耗大量时间,降低Spark性能。 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partitio 阅读全文
posted @ 2020-05-07 13:36 清浊 阅读(841) 评论(0) 推荐(0) 编辑
  2020年5月4日
摘要: Spark只支持两种RDD操作,transformation和action操作,transformation针对已有的RDD创建一个新的RDD文件,action主要是对RDD进行最后操作,比如遍历和reduce、保存到文件等,并可以返回结果到Driver程序 transformation,都具有la 阅读全文
posted @ 2020-05-04 22:31 清浊 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDD。 Spark Core提供 阅读全文
posted @ 2020-05-04 21:31 清浊 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 1、Driver,启动之后执行一些初始化操作,然后向Master进行注册,让master知道有一个spark应用程序要执行。在Executor反向注册以后,就可以开始正式执行spark程序,首先第一步创建初始RDD,读取数据源。从HDFS文件内容中读取数据,分布到work节点上,形成内存中的分布式数 阅读全文
posted @ 2020-05-04 21:04 清浊 阅读(151) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 20 下一页