会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
清浊
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
20
下一页
2020年5月11日
Spark内核源码继续五:Master原理解析和源码解析
摘要: 上篇已经降到AppClient找Master进行注册,本章主要解析Master的原理和源码解析 1、Master的主备切换原理 package org.apache.spark.deploy.master completeRecovery,过滤没有响应的worker,app,drivers,从内存缓
阅读全文
posted @ 2020-05-11 14:26 清浊
阅读(343)
评论(0)
推荐(0)
编辑
2020年5月10日
Spark内核源码解析四:SparkContext原理解析和源码解析
摘要: 源码解析 主构造函数代码 private[spark] var (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master) createTaskScheduler,创建TaskScheduler
阅读全文
posted @ 2020-05-10 22:32 清浊
阅读(225)
评论(0)
推荐(0)
编辑
2020年5月9日
Spark内核源码解析三:三种提交模式
摘要: 1、基于Spark内核架构也就是standalone提交,基于自己的Master-worker集群。Driver在本地启动, 2、基于yarn的yarn-cluster模式,要先分配container,然后在yarn进群的一个nodeManager上启动Driver。 3、基于yarn的yarn-c
阅读全文
posted @ 2020-05-09 17:34 清浊
阅读(251)
评论(0)
推荐(0)
编辑
spark内核源码解析一
摘要: 1、Application,自己编写的spark程序。2、spark-submit,利用shell来提交自己的spark程序3、Driver,standalone提交方式,会通过反射构造出一个Driver进程。Driver进程会执行application程序。4、SparkContext,Drive
阅读全文
posted @ 2020-05-09 17:05 清浊
阅读(183)
评论(0)
推荐(0)
编辑
2020年5月8日
Spark-wordcount排序开发,二次排序和取top n
摘要: package cn.spark.study.core; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD
阅读全文
posted @ 2020-05-08 13:30 清浊
阅读(293)
评论(0)
推荐(0)
编辑
Spark-共享变量工作原理
摘要: Spark一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Spark为此提供了两种共享变量,一种是Broadc
阅读全文
posted @ 2020-05-08 12:49 清浊
阅读(332)
评论(0)
推荐(0)
编辑
2020年5月7日
Spark-RDD持久化
摘要: 多次对某个RDD进行transformation或者action,如果没有做RDD持久化,那么每次都要重新计算一个RDD,会消耗大量时间,降低Spark性能。 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partitio
阅读全文
posted @ 2020-05-07 13:36 清浊
阅读(841)
评论(0)
推荐(0)
编辑
2020年5月4日
Spark-Spark RDD操作
摘要: Spark只支持两种RDD操作,transformation和action操作,transformation针对已有的RDD创建一个新的RDD文件,action主要是对RDD进行最后操作,比如遍历和reduce、保存到文件等,并可以返回结果到Driver程序 transformation,都具有la
阅读全文
posted @ 2020-05-04 22:31 清浊
阅读(508)
评论(0)
推荐(0)
编辑
spark-spark RDD的创建
摘要: 进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDD。 Spark Core提供
阅读全文
posted @ 2020-05-04 21:31 清浊
阅读(762)
评论(0)
推荐(0)
编辑
spark-spark架构原理
摘要: 1、Driver,启动之后执行一些初始化操作,然后向Master进行注册,让master知道有一个spark应用程序要执行。在Executor反向注册以后,就可以开始正式执行spark程序,首先第一步创建初始RDD,读取数据源。从HDFS文件内容中读取数据,分布到work节点上,形成内存中的分布式数
阅读全文
posted @ 2020-05-04 21:04 清浊
阅读(151)
评论(0)
推荐(0)
编辑
上一页
1
···
4
5
6
7
8
9
10
11
12
···
20
下一页