随笔分类 - Spark
摘要:目录版本要求启动 minikube安装 Helm使用 helm 安装 spark-operator提交 spark 任务Schedule 机制Metric 版本要求 Spark 官方没有开发 Spark Operator,现在是由 Google 开发的 这个 Operator 使用的 Spark o
阅读全文
摘要:###准备工作 安装 Java ```bash C:\Users\Lin>java -version java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16) Java HotSpot(TM) 64-
阅读全文
摘要:配置 spark 用户 apiVersion: v1 kind: ServiceAccount metadata: name: spark namespace: default apiVersion: rbac.authorization.k8s.io/v1 kind: Role metadata:
阅读全文
摘要:适合使用 Broadcast 的场景 如果希望 driver 和每个 executor 读到的变量值是一致的 如果有的变量存储的数据比较大,希望在每个 executor 都只初始化一遍 broadcast 的变量是在 driver 初始化的,然后将 broadcast 变量的元数据传给 execut
阅读全文
摘要:Structured Streaming 内部使用 StateStore 模块实现增量持续查询,和故障恢复 StateStore 模块提供了分片的、分版本的、可迁移的、高可用的 key-value store 而在应用层面主要是使用 mapGroupsWithState 和 flatMapGroup
阅读全文
摘要:Spark 的 Structured Streaming 流处理,默认用的是 micro-batch 模拟流,可以保证 exactly-once 语义,但最好只能是 100ms 级别的延迟 为了满足更低延迟的业务需求,Spark Structured Streaming 推出了 Continuous
阅读全文
摘要:###基本原理 (YARN 模式) 每个 stage 会有多个 partition,每个 partition 由 Executor 的一个 Task 执行 stage 的默认 partition 数量由 spark.default.parallelism 参数决定,默认由 parent stage
阅读全文
摘要:可以申请的最大内存 启动 Spark Job 之前要先检查需要的内存是否太大,这部分代码在 // resource-managers\yarn\src\main\scala\org\apache\spark\deploy\yarn\Client.scala private def verifyClu
阅读全文
摘要:### Spark on K8S 的几种模式 - Standalone:在 K8S 启动一个长期运行的集群,所有 Job 都通过 spark-submit 向这个集群提交 - Kubernetes Native:通过 spark-submit 直接向 K8S 的 API Server 提交,申请到资
阅读全文
摘要:### Spark on K8S 的几种模式 - Standalone:在 K8S 启动一个长期运行的集群,所有 Job 都通过 spark-submit 向这个集群提交 - Kubernetes Native:通过 spark-submit 直接向 K8S 的 API Server 提交,申请到资
阅读全文
摘要:###概述 Structured Streaming 是 Spark 2.0 引入的功能,有以下特点 - 基于 Spark SQL engine - 可以直接使用 DataSet/DataFrame API,就像处理离线的批数据一样 - Spark SQL engine 持续地、增量地处理流数据 -
阅读全文
摘要:HDFS org.apache.hadoop.hdfs.server.datanode.DataNode org.apache.hadoop.hdfs.server.namenode.NameNode ## 非 HA 模式下才有 SecondaryNameNode,配置 HA 的话是两个 NameN
阅读全文
摘要:如果 SparkContext 或 SQLContext 被传到 Worker,哪怕实际上在 Worker 中没使用上,都会报下面的错误 Exception: It appears that you are attempting to reference SparkContext from a br
阅读全文
摘要:架构 Driver Program:每个 Spark 应用的主程序 Spark Context:在 Driver 里面构建,用于协调、调度在各个节点运行的进程 Cluster Manager:管理节点,分配资源(可以是 Spark standalone、Mesos、Yarn、K8S) Worker
阅读全文