Spark - 随笔分类 - moon~light

Spark on K8S - Operator

摘要：目录版本要求启动 minikube安装 Helm使用 helm 安装 spark-operator提交 spark 任务Schedule 机制Metric 版本要求 Spark 官方没有开发 Spark Operator，现在是由 Google 开发的这个 Operator 使用的 Spark o 阅读全文

posted @ 2022-01-09 21:20 moon~light 阅读(4162) 评论(1) 推荐(0)

Intellij Idea 编写 Scala Spark 程序

摘要：###准备工作安装 Java ```bash C:\Users\Lin>java -version java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16) Java HotSpot(TM) 64- 阅读全文

posted @ 2021-03-11 21:51 moon~light 阅读(505) 评论(0) 推荐(0)

Spark on K8S - Client Mode

摘要：配置 spark 用户 apiVersion: v1 kind: ServiceAccount metadata: name: spark namespace: default apiVersion: rbac.authorization.k8s.io/v1 kind: Role metadata: 阅读全文

posted @ 2021-01-12 23:45 moon~light 阅读(739) 评论(4) 推荐(0)

Spark 的 Broadcast 和 Accumulator 的使用

摘要：适合使用 Broadcast 的场景如果希望 driver 和每个 executor 读到的变量值是一致的如果有的变量存储的数据比较大，希望在每个 executor 都只初始化一遍 broadcast 的变量是在 driver 初始化的，然后将 broadcast 变量的元数据传给 execut 阅读全文

posted @ 2020-12-21 01:50 moon~light 阅读(186) 评论(0) 推荐(0)

Spark Structured Streaming 的 Stateful 操作

摘要：Structured Streaming 内部使用 StateStore 模块实现增量持续查询，和故障恢复 StateStore 模块提供了分片的、分版本的、可迁移的、高可用的 key-value store 而在应用层面主要是使用 mapGroupsWithState 和 flatMapGroup 阅读全文

posted @ 2020-12-20 21:49 moon~light 阅读(365) 评论(0) 推荐(0)

Spark Structured Streaming 的 Continuous 模式

摘要：Spark 的 Structured Streaming 流处理，默认用的是 micro-batch 模拟流，可以保证 exactly-once 语义，但最好只能是 100ms 级别的延迟为了满足更低延迟的业务需求，Spark Structured Streaming 推出了 Continuous 阅读全文

posted @ 2020-12-20 21:03 moon~light 阅读(594) 评论(0) 推荐(0)

Spark Executor Task 的执行和数量

摘要：###基本原理 (YARN 模式) 每个 stage 会有多个 partition，每个 partition 由 Executor 的一个 Task 执行 stage 的默认 partition 数量由 spark.default.parallelism 参数决定，默认由 parent stage 阅读全文

posted @ 2020-11-07 16:33 moon~light 阅读(3330) 评论(0) 推荐(0)

Spark Job 内存的分配管理

摘要：可以申请的最大内存启动 Spark Job 之前要先检查需要的内存是否太大，这部分代码在 // resource-managers\yarn\src\main\scala\org\apache\spark\deploy\yarn\Client.scala private def verifyClu 阅读全文

posted @ 2020-10-29 01:29 moon~light 阅读(358) 评论(0) 推荐(0)

Spark on K8S（Standalone）

摘要：### Spark on K8S 的几种模式 - Standalone：在 K8S 启动一个长期运行的集群，所有 Job 都通过 spark-submit 向这个集群提交 - Kubernetes Native：通过 spark-submit 直接向 K8S 的 API Server 提交，申请到资阅读全文

posted @ 2020-07-28 01:33 moon~light 阅读(1658) 评论(0) 推荐(0)

Spark on K8S （Kubernetes Native）

摘要：### Spark on K8S 的几种模式 - Standalone：在 K8S 启动一个长期运行的集群，所有 Job 都通过 spark-submit 向这个集群提交 - Kubernetes Native：通过 spark-submit 直接向 K8S 的 API Server 提交，申请到资阅读全文

posted @ 2020-07-14 02:11 moon~light 阅读(13959) 评论(0) 推荐(1)

Spark Structured Streaming

摘要：###概述 Structured Streaming 是 Spark 2.0 引入的功能，有以下特点 - 基于 Spark SQL engine - 可以直接使用 DataSet/DataFrame API，就像处理离线的批数据一样 - Spark SQL engine 持续地、增量地处理流数据 - 阅读全文

posted @ 2020-05-29 20:13 moon~light 阅读(512) 评论(0) 推荐(0)

Hadoop/Spark 集群都启动了哪些 Java 程序

摘要：HDFS org.apache.hadoop.hdfs.server.datanode.DataNode org.apache.hadoop.hdfs.server.namenode.NameNode ## 非 HA 模式下才有 SecondaryNameNode，配置 HA 的话是两个 NameN 阅读全文

posted @ 2020-05-25 01:43 moon~light 阅读(383) 评论(0) 推荐(0)

Spark 不允许在 Worker 中访问 SparkContext

摘要：如果 SparkContext 或 SQLContext 被传到 Worker，哪怕实际上在 Worker 中没使用上，都会报下面的错误 Exception: It appears that you are attempting to reference SparkContext from a br 阅读全文

posted @ 2020-05-24 18:12 moon~light 阅读(2096) 评论(0) 推荐(0)

Spark 安装

摘要：架构 Driver Program：每个 Spark 应用的主程序 Spark Context：在 Driver 里面构建，用于协调、调度在各个节点运行的进程 Cluster Manager：管理节点，分配资源（可以是 Spark standalone、Mesos、Yarn、K8S） Worker 阅读全文

posted @ 2020-05-22 02:01 moon~light 阅读(181) 评论(0) 推荐(0)

moon__light

随笔分类 - Spark

公告