wellDoneGaben

2019年10月26日

摘要： 1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是对的形式, 这样每一个 key 对应一个聚合起来的 value。问题: 聚合之前, 每阅读全文

posted @ 2019-10-26 08:31 wellDoneGaben 阅读(193) 评论(0) 推荐(0) 编辑

2019年10月25日

Spark 广播变量和累加器

摘要： 1. 广播变量理解图使用示例源码 scala package org.apache.spark.broadcast import java.io.Serializable import scala.reflect.ClassTag import org.apache.spark.SparkEx 阅读全文

posted @ 2019-10-25 16:10 wellDoneGaben 阅读(222) 评论(0) 推荐(0) 编辑

2019年10月24日

Spark 资源调度与任务调度

摘要： Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况。当 Spark 提交一个 Application 后, 根据 RDD 之间的依赖关系将 Application 形成一个 DAG 阅读全文

posted @ 2019-10-24 20:36 wellDoneGaben 阅读(870) 评论(0) 推荐(0) 编辑

2019年10月23日

Spark 集群任务提交模式

摘要： Spark 集群的模式及提交任务的方式本文大致的内容图 Spark 集群的两种模式: Standalone 模式 Standalone client 任务提交方式提交命令 || 执行原理执行流程 1. client 模式提交任务后, 会在客户端启动Driver进程 2. Driver 会向 M 阅读全文

posted @ 2019-10-23 22:16 wellDoneGaben 阅读(2070) 评论(0) 推荐(0) 编辑

Spark RDD 宽窄依赖

摘要： RDD 宽窄依赖 RDD之间有一系列的依赖关系, 可分为窄依赖和宽依赖窄依赖从 RDD 的 parition 角度来看父 RRD 的 parition 和子 RDD 的 parition 之间的关系是一对一的 (或者是多对一的)。不会有 shuffle 产生宽依赖父 RRD 的 pa 阅读全文

posted @ 2019-10-23 17:49 wellDoneGaben 阅读(379) 评论(0) 推荐(0) 编辑

2019年10月22日

Spark 资源调度包 stage 类解析

摘要： spark 资源调度包 Stage(阶段) 类解析 Stage 概念 Spark 任务会根据 RDD 之间的依赖关系, 形成一个DAG有向无环图, DAG会被提交给DAGScheduler, DAGSchedular 会把DAG划分为相互依赖的多个stage。而划分stage的依据就是RDD之间的阅读全文

posted @ 2019-10-22 22:48 wellDoneGaben 阅读(351) 评论(0) 推荐(0) 编辑

堆内内存与堆外内存

摘要：最近看Spark的 StorageLevel(存储级别) 源码的时候看到有 useOffHeap 这个标签, 觉得有必要挖掘一下堆内内存(on heap memory) 堆内内存是java程序员在日常工作中解除比较多的, 可以在jvm参数中使用 Xms, Xmx 等参数来设置堆的大小和最大值堆阅读全文

posted @ 2019-10-22 10:57 wellDoneGaben 阅读(14904) 评论(4) 推荐(2) 编辑

2019年10月21日

Spark笔记(一)

摘要： 1. 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不阅读全文

posted @ 2019-10-21 22:17 wellDoneGaben 阅读(495) 评论(0) 推荐(0) 编辑

2019年10月20日

scala 语言特性

摘要： Scala 语言特性 Unit 表示无值, 等价于java, C++中的void Null 表示空值或空引用 Nothing 所有其他类型的子类型, 表示没有值 Any 所有类型的超类, 任何实例都属于Any类型 AnyRef 所有引用类型的超类 AnyVal 所有值类型的超类变量: var(va 阅读全文

posted @ 2019-10-20 20:44 wellDoneGaben 阅读(315) 评论(0) 推荐(0) 编辑

Centos7.4 Storm2.0.0 + Zookeeper3.5.5 高可用集群搭建

摘要：想了下还是把kafka集群和storm集群分开比较好 1. 集群规划: | | Nimbus | Supervisor | | | | | | storm01 | √ | √ | | storm02 | √(备份) | √ | | storm03 | | √ | 2. 准备工作老样子复制三台虚拟机阅读全文

posted @ 2019-10-20 00:45 wellDoneGaben 阅读(277) 评论(0) 推荐(0) 编辑

公告