清浊 - 博客园

2020年5月11日

摘要：上篇已经降到AppClient找Master进行注册，本章主要解析Master的原理和源码解析 1、Master的主备切换原理 package org.apache.spark.deploy.master completeRecovery，过滤没有响应的worker，app，drivers，从内存缓阅读全文

posted @ 2020-05-11 14:26 清浊阅读(343) 评论(0) 推荐(0) 编辑

2020年5月10日

Spark内核源码解析四：SparkContext原理解析和源码解析

摘要：源码解析主构造函数代码 private[spark] var (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master) createTaskScheduler，创建TaskScheduler 阅读全文

posted @ 2020-05-10 22:32 清浊阅读(225) 评论(0) 推荐(0) 编辑

2020年5月9日

Spark内核源码解析三：三种提交模式

摘要： 1、基于Spark内核架构也就是standalone提交，基于自己的Master-worker集群。Driver在本地启动， 2、基于yarn的yarn-cluster模式，要先分配container，然后在yarn进群的一个nodeManager上启动Driver。 3、基于yarn的yarn-c 阅读全文

posted @ 2020-05-09 17:34 清浊阅读(251) 评论(0) 推荐(0) 编辑

spark内核源码解析一

摘要： 1、Application，自己编写的spark程序。2、spark-submit，利用shell来提交自己的spark程序3、Driver，standalone提交方式，会通过反射构造出一个Driver进程。Driver进程会执行application程序。4、SparkContext，Drive 阅读全文

posted @ 2020-05-09 17:05 清浊阅读(183) 评论(0) 推荐(0) 编辑

2020年5月8日

Spark-wordcount排序开发，二次排序和取top n

摘要： package cn.spark.study.core; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD 阅读全文

posted @ 2020-05-08 13:30 清浊阅读(293) 评论(0) 推荐(0) 编辑

Spark-共享变量工作原理

摘要： Spark一个非常重要的特性就是共享变量。默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量，那么这种方式是做不到的。 Spark为此提供了两种共享变量，一种是Broadc 阅读全文

posted @ 2020-05-08 12:49 清浊阅读(332) 评论(0) 推荐(0) 编辑

2020年5月7日

Spark-RDD持久化

摘要：多次对某个RDD进行transformation或者action，如果没有做RDD持久化，那么每次都要重新计算一个RDD，会消耗大量时间，降低Spark性能。 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partitio 阅读全文

posted @ 2020-05-07 13:36 清浊阅读(841) 评论(0) 推荐(0) 编辑

2020年5月4日

Spark-Spark RDD操作

摘要： Spark只支持两种RDD操作，transformation和action操作，transformation针对已有的RDD创建一个新的RDD文件，action主要是对RDD进行最后操作，比如遍历和reduce、保存到文件等，并可以返回结果到Driver程序 transformation,都具有la 阅读全文

posted @ 2020-05-04 22:31 清浊阅读(508) 评论(0) 推荐(0) 编辑

spark-spark RDD的创建

摘要：进行Spark核心编程时，首先要做的第一件事，就是创建一个初始的RDD。该RDD中，通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后，才可以通过Spark Core提供的transformation算子，对该RDD进行转换，来获取其他的RDD。 Spark Core提供阅读全文

posted @ 2020-05-04 21:31 清浊阅读(762) 评论(0) 推荐(0) 编辑

spark-spark架构原理

摘要： 1、Driver，启动之后执行一些初始化操作，然后向Master进行注册，让master知道有一个spark应用程序要执行。在Executor反向注册以后，就可以开始正式执行spark程序，首先第一步创建初始RDD，读取数据源。从HDFS文件内容中读取数据，分布到work节点上，形成内存中的分布式数阅读全文

posted @ 2020-05-04 21:04 清浊阅读(151) 评论(0) 推荐(0) 编辑