12 2019 档案
摘要:Master源码 1 package org.apache.spark.deploy.master 2 //伴生类 3 private[deploy] class Master( 4 override val rpcEnv: RpcEnv, 5 address: RpcAddress, 6 webU
阅读全文
摘要:1、start-all.sh脚本,实际上执行java -cp Master 和 java -cp Worker 2、Master 启动时首先穿件一个RpcEnv对象,负责管理所有通信逻辑 3、Master 通信RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worke
阅读全文
摘要:1、RpcEndpoint: RPC端点 Spark针对每个节点(Client、Master、Worker)都称之为一个RpcEndpoint,且都实现RpcEndpoint接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则内部调用Dispatcher的对应方法 说
阅读全文
摘要:1、Spark核心组件 1.1 Cluster Manager(Master,ResourceManager) Spark的集群管理器,主要负责对整个集群资源的分配与管理 Cluster Manager 在 Yarn 部署模式下为 ResourceManager 在 Mesos 部署模式下为 Mes
阅读全文
摘要:1、无状态转换操作 (1)无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转换DStream中的每一个RDD。 部分无状态转化操作: (2)尽管这些函数韩起来像作用在整个流上一样,但事实上每个DStream在内部是由许多RDD(批次)组成,且无状态转化操作是分别应用到每个RDD上。
阅读全文
摘要:1、查看 RDD 的血缘关系 说明: 圆括号(2): 2表示RDD的并行度,几个分区 2、查看RDD的依赖关系 RDD之间的关系可以从两个维度来理解: (1)一个是RDD从哪些RDD转换而来,也就是RDD的parent RDD(s)是什么 (2)另一个是RDD依赖于parent RDD(s)的哪些
阅读全文
摘要:我们进行 Spark 进行编程的时候, 初始化工作是在driver端完成的 ,而 实际的运行程序是在executor端进行 ,所以就涉及到了进程间的通讯,数据是需要序列化的 1、传递函数 说明: (1)直接运行程序会报错: 。因为 用到了 ,所以对象 this需要序列化 , 才能把对象从driver
阅读全文
摘要:1、reduce(func) 通过func函数聚集RDD 中的所有元素, 先聚合分区内数据,再聚合分区间数据。 2、collect 以 的形式返回 RDD 中的所有元素. 所以要慎用 3、count 返回 RDD 中元素的个数. 4、take(n) 返回 RDD 中 组成的 . take 的数据也会
阅读全文
摘要:大多数的 Spark 操作可以用在任意类型的 RDD 上, 但是有一些比较特殊的操作只能用在key value类型的 RDD 上. 这些特殊操作大多都涉及到 shuffle 操作, 比如: 按照 key 分组(group), 聚集(aggregate)等. 在 Spark 中, 这些操作在包含 的
阅读全文
摘要:1、union(otherDataSet) 作用 : . 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD 2、subtract(otherDataSet) 作用: 从原 RDD 中减去 原 RDD 和otherDataset 中的共同的部分. 3、intersection(otherDa
阅读全文
摘要:1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD,然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f
阅读全文
摘要:一、RDD创建的3种方式: 1、从集合中创建RDD 2、从外部存储创建RDD 3、从其他RDD转换得到新的RDD 二、从集合中创建RDD 1、使用parallelize函数创建 1 scala> val arr = Array(10,20,30,40,50,60) 2 arr: Array[Int]
阅读全文
摘要:一、什么是RDD 1、RDD(Resilient Distributed DataSet)弹性分布式数据集 2、是Spark中最基本的数据抽象 3、在代码中是一个抽象类,它代表一个弹性的、不可变的、可分区,里面的元素可并行计算的集合 二、RDD的5个主要属性(property) 1、A list o
阅读全文