摘要: 一个 Spark 应用程序的完整执行流程 1、编写 Spark Application 应用程序 2、打 jar 包,通过 spark-submit 提交执行 3、SparkSubmit 提交执行 4、执行 Spark Application 的 main 方法 5、初始化 SparkContext 阅读全文
posted @ 2020-12-17 20:37 宁君 阅读(1354) 评论(1) 推荐(0) 编辑
摘要: Spark 的 RPC 什么是RPC 在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节 点间的Shuffle过程、Block数据的复制与备份等。 如果把分布式系统(HDFS, HBASE,SPARK等)比作一个人,那么RPC可以认为是人体的血液循 阅读全文
posted @ 2020-12-17 20:21 宁君 阅读(108) 评论(0) 推荐(0) 编辑
摘要: Spark调优 1. 避免创建重复的RDD 1. 1. 一个简单的例子 2. 尽可能复用同一个RDD 2. 1. 一个简单的例子 3. 对多次使用的RDD持久化 3. 1. 对多次使用的RDD进行持久化的代码示例 3. 2. Spark的持久化级别 3. 3. 如何选择一种最合适的持久化策略 4. 阅读全文
posted @ 2020-12-17 19:46 宁君 阅读(96) 评论(0) 推荐(0) 编辑
摘要: Hbase系列文章 HBase(一): c#访问hbase组件开发 HBase(二): c#访问HBase之股票行情Demo HBase(三): Azure HDInsigt HBase表数据导入本地HBase 基于HDInsight 3.4 HBase集群规划参考 hadoop(四): 本地 hb 阅读全文
posted @ 2020-12-17 17:44 宁君 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 使用 分布式快照机制 和 两阶段提交 两阶段提交 在 Flink 中两阶段提交的实现方法被封装到了 TwoPhaseCommitSinkFunction 这个抽象类中,我们只需要实现其中的beginTransaction、preCommit、commit、abort 四个方法就可以实现“精确一次”的 阅读全文
posted @ 2020-12-17 17:35 宁君 阅读(1851) 评论(0) 推荐(0) 编辑