摘要:
Spark 的 RPC 什么是RPC 在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节 点间的Shuffle过程、Block数据的复制与备份等。 如果把分布式系统(HDFS, HBASE,SPARK等)比作一个人,那么RPC可以认为是人体的血液循 阅读全文
摘要:
Spark调优 1. 避免创建重复的RDD 1. 1. 一个简单的例子 2. 尽可能复用同一个RDD 2. 1. 一个简单的例子 3. 对多次使用的RDD持久化 3. 1. 对多次使用的RDD进行持久化的代码示例 3. 2. Spark的持久化级别 3. 3. 如何选择一种最合适的持久化策略 4. 阅读全文
摘要:
Hbase系列文章 HBase(一): c#访问hbase组件开发 HBase(二): c#访问HBase之股票行情Demo HBase(三): Azure HDInsigt HBase表数据导入本地HBase 基于HDInsight 3.4 HBase集群规划参考 hadoop(四): 本地 hb 阅读全文
摘要:
使用 分布式快照机制 和 两阶段提交 两阶段提交 在 Flink 中两阶段提交的实现方法被封装到了 TwoPhaseCommitSinkFunction 这个抽象类中,我们只需要实现其中的beginTransaction、preCommit、commit、abort 四个方法就可以实现“精确一次”的 阅读全文