上一页 1 ··· 8 9 10 11 12 13 14 15 下一页
摘要: 1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是 对的形式, 这样每一个 key 对应 一个聚合起来的 value。 问题: 聚合之前, 每 阅读全文
posted @ 2019-10-26 08:31 wellDoneGaben 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 1. 广播变量 理解图 使用示例 源码 scala package org.apache.spark.broadcast import java.io.Serializable import scala.reflect.ClassTag import org.apache.spark.SparkEx 阅读全文
posted @ 2019-10-25 16:10 wellDoneGaben 阅读(222) 评论(0) 推荐(0) 编辑
摘要: Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况。 当 Spark 提交一个 Application 后, 根据 RDD 之间的依赖关系将 Application 形成一个 DAG 阅读全文
posted @ 2019-10-24 20:36 wellDoneGaben 阅读(870) 评论(0) 推荐(0) 编辑
摘要: Spark 集群的模式及提交任务的方式 本文大致的内容图 Spark 集群的两种模式: Standalone 模式 Standalone client 任务提交方式 提交命令 || 执行原理 执行流程 1. client 模式提交任务后, 会在客户端启动Driver进程 2. Driver 会向 M 阅读全文
posted @ 2019-10-23 22:16 wellDoneGaben 阅读(2070) 评论(0) 推荐(0) 编辑
摘要: RDD 宽窄依赖 RDD之间有一系列的依赖关系, 可分为窄依赖和宽依赖 窄依赖 从 RDD 的 parition 角度来看 父 RRD 的 parition 和 子 RDD 的 parition 之间的关系是一对一的 (或 者是多对一的)。 不会有 shuffle 产生 宽依赖 父 RRD 的 pa 阅读全文
posted @ 2019-10-23 17:49 wellDoneGaben 阅读(379) 评论(0) 推荐(0) 编辑
摘要: spark 资源调度包 Stage(阶段) 类解析 Stage 概念 Spark 任务会根据 RDD 之间的依赖关系, 形成一个DAG有向无环图, DAG会被提交给DAGScheduler, DAGSchedular 会把DAG划分为相互依赖的多个stage。 而划分stage的依据就是RDD之间的 阅读全文
posted @ 2019-10-22 22:48 wellDoneGaben 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 最近看Spark的 StorageLevel(存储级别) 源码的时候 看到有 useOffHeap 这个标签, 觉得有必要挖掘一下 堆内内存(on heap memory) 堆内内存是java程序员在日常工作中解除比较多的, 可以在jvm参数中使用 Xms, Xmx 等参数来设置堆的大小和最大值 堆 阅读全文
posted @ 2019-10-22 10:57 wellDoneGaben 阅读(14904) 评论(4) 推荐(2) 编辑
摘要: 1. 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不 阅读全文
posted @ 2019-10-21 22:17 wellDoneGaben 阅读(495) 评论(0) 推荐(0) 编辑
摘要: Scala 语言特性 Unit 表示无值, 等价于java, C++中的void Null 表示空值或空引用 Nothing 所有其他类型的子类型, 表示没有值 Any 所有类型的超类, 任何实例都属于Any类型 AnyRef 所有引用类型的超类 AnyVal 所有值类型的超类 变量: var(va 阅读全文
posted @ 2019-10-20 20:44 wellDoneGaben 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 想了下还是把kafka集群和storm集群分开比较好 1. 集群规划: | | Nimbus | Supervisor | | | | | | storm01 | √ | √ | | storm02 | √(备份) | √ | | storm03 | | √ | 2. 准备工作 老样子复制三台虚拟机 阅读全文
posted @ 2019-10-20 00:45 wellDoneGaben 阅读(277) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 下一页