随笔分类 -  Spark

摘要:目录版本要求启动 minikube安装 Helm使用 helm 安装 spark-operator提交 spark 任务Schedule 机制Metric 版本要求 Spark 官方没有开发 Spark Operator,现在是由 Google 开发的 这个 Operator 使用的 Spark o 阅读全文
posted @ 2022-01-09 21:20 moon~light 阅读(3739) 评论(1) 推荐(0) 编辑
摘要:###准备工作 安装 Java ```bash C:\Users\Lin>java -version java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16) Java HotSpot(TM) 64- 阅读全文
posted @ 2021-03-11 21:51 moon~light 阅读(428) 评论(0) 推荐(0) 编辑
摘要:配置 spark 用户 apiVersion: v1 kind: ServiceAccount metadata: name: spark namespace: default apiVersion: rbac.authorization.k8s.io/v1 kind: Role metadata: 阅读全文
posted @ 2021-01-12 23:45 moon~light 阅读(712) 评论(4) 推荐(0) 编辑
摘要:适合使用 Broadcast 的场景 如果希望 driver 和每个 executor 读到的变量值是一致的 如果有的变量存储的数据比较大,希望在每个 executor 都只初始化一遍 broadcast 的变量是在 driver 初始化的,然后将 broadcast 变量的元数据传给 execut 阅读全文
posted @ 2020-12-21 01:50 moon~light 阅读(173) 评论(0) 推荐(0) 编辑
摘要:Structured Streaming 内部使用 StateStore 模块实现增量持续查询,和故障恢复 StateStore 模块提供了分片的、分版本的、可迁移的、高可用的 key-value store 而在应用层面主要是使用 mapGroupsWithState 和 flatMapGroup 阅读全文
posted @ 2020-12-20 21:49 moon~light 阅读(329) 评论(0) 推荐(0) 编辑
摘要:Spark 的 Structured Streaming 流处理,默认用的是 micro-batch 模拟流,可以保证 exactly-once 语义,但最好只能是 100ms 级别的延迟 为了满足更低延迟的业务需求,Spark Structured Streaming 推出了 Continuous 阅读全文
posted @ 2020-12-20 21:03 moon~light 阅读(530) 评论(0) 推荐(0) 编辑
摘要:###基本原理 (YARN 模式) 每个 stage 会有多个 partition,每个 partition 由 Executor 的一个 Task 执行 stage 的默认 partition 数量由 spark.default.parallelism 参数决定,默认由 parent stage 阅读全文
posted @ 2020-11-07 16:33 moon~light 阅读(3192) 评论(0) 推荐(0) 编辑
摘要:可以申请的最大内存 启动 Spark Job 之前要先检查需要的内存是否太大,这部分代码在 // resource-managers\yarn\src\main\scala\org\apache\spark\deploy\yarn\Client.scala private def verifyClu 阅读全文
posted @ 2020-10-29 01:29 moon~light 阅读(301) 评论(0) 推荐(0) 编辑
摘要:### Spark on K8S 的几种模式 - Standalone:在 K8S 启动一个长期运行的集群,所有 Job 都通过 spark-submit 向这个集群提交 - Kubernetes Native:通过 spark-submit 直接向 K8S 的 API Server 提交,申请到资 阅读全文
posted @ 2020-07-28 01:33 moon~light 阅读(1580) 评论(0) 推荐(0) 编辑
摘要:### Spark on K8S 的几种模式 - Standalone:在 K8S 启动一个长期运行的集群,所有 Job 都通过 spark-submit 向这个集群提交 - Kubernetes Native:通过 spark-submit 直接向 K8S 的 API Server 提交,申请到资 阅读全文
posted @ 2020-07-14 02:11 moon~light 阅读(13441) 评论(0) 推荐(1) 编辑
摘要:###概述 Structured Streaming 是 Spark 2.0 引入的功能,有以下特点 - 基于 Spark SQL engine - 可以直接使用 DataSet/DataFrame API,就像处理离线的批数据一样 - Spark SQL engine 持续地、增量地处理流数据 - 阅读全文
posted @ 2020-05-29 20:13 moon~light 阅读(477) 评论(0) 推荐(0) 编辑
摘要:HDFS org.apache.hadoop.hdfs.server.datanode.DataNode org.apache.hadoop.hdfs.server.namenode.NameNode ## 非 HA 模式下才有 SecondaryNameNode,配置 HA 的话是两个 NameN 阅读全文
posted @ 2020-05-25 01:43 moon~light 阅读(367) 评论(0) 推荐(0) 编辑
摘要:如果 SparkContext 或 SQLContext 被传到 Worker,哪怕实际上在 Worker 中没使用上,都会报下面的错误 Exception: It appears that you are attempting to reference SparkContext from a br 阅读全文
posted @ 2020-05-24 18:12 moon~light 阅读(1978) 评论(0) 推荐(0) 编辑
摘要:架构 Driver Program:每个 Spark 应用的主程序 Spark Context:在 Driver 里面构建,用于协调、调度在各个节点运行的进程 Cluster Manager:管理节点,分配资源(可以是 Spark standalone、Mesos、Yarn、K8S) Worker 阅读全文
posted @ 2020-05-22 02:01 moon~light 阅读(158) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示