摘要: Spark 的 RPC 什么是RPC 在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节 点间的Shuffle过程、Block数据的复制与备份等。 如果把分布式系统(HDFS, HBASE,SPARK等)比作一个人,那么RPC可以认为是人体的血液循 阅读全文
posted @ 2020-12-17 20:21 宁君 阅读(108) 评论(0) 推荐(0) 编辑
摘要: Spark调优 1. 避免创建重复的RDD 1. 1. 一个简单的例子 2. 尽可能复用同一个RDD 2. 1. 一个简单的例子 3. 对多次使用的RDD持久化 3. 1. 对多次使用的RDD进行持久化的代码示例 3. 2. Spark的持久化级别 3. 3. 如何选择一种最合适的持久化策略 4. 阅读全文
posted @ 2020-12-17 19:46 宁君 阅读(96) 评论(0) 推荐(0) 编辑
摘要: Hbase系列文章 HBase(一): c#访问hbase组件开发 HBase(二): c#访问HBase之股票行情Demo HBase(三): Azure HDInsigt HBase表数据导入本地HBase 基于HDInsight 3.4 HBase集群规划参考 hadoop(四): 本地 hb 阅读全文
posted @ 2020-12-17 17:44 宁君 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 使用 分布式快照机制 和 两阶段提交 两阶段提交 在 Flink 中两阶段提交的实现方法被封装到了 TwoPhaseCommitSinkFunction 这个抽象类中,我们只需要实现其中的beginTransaction、preCommit、commit、abort 四个方法就可以实现“精确一次”的 阅读全文
posted @ 2020-12-17 17:35 宁君 阅读(1851) 评论(0) 推荐(0) 编辑
摘要: Flink相对于Spark的优点 容错 Flink 基于两阶段提交实现了精确的一次处理语义。 Spark Streaming 只能做到不丢数据,但是有重复。 反压 Flink 在数据传输过程中使用了分布式阻塞队列,一个阻塞队列中,当队列满了以后发送者会被天然阻塞住,这种阻塞功能相当于给这个阻塞队列提 阅读全文
posted @ 2020-12-16 22:51 宁君 阅读(935) 评论(0) 推荐(0) 编辑
摘要: 最详细10招Spark数据倾斜调优 数据量大并不可怕,可怕的是数据倾斜 。 数据倾斜发生的现象 绝大多数 task 执行得都非常快,但个别 task 执行极慢。 数据倾斜发生的原理 在进行 shuffle 的时候,必须将各个节点上相同的 key 的数据拉取到某个节点 上的一个 task 来进行处理, 阅读全文
posted @ 2020-12-15 23:28 宁君 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 2021年学习计划和完成情况 总体目标 大讲台--大数据运维 (已完成) 软考-软件设计师(中级)2021年5月(已取消) 奈学-P8大数据架构师(已完成) PMP考试.(已取消) 十大机器学习算法原理 贪心-推荐系统 2021-05 看书 书名 开始时间 结束时间 评分★☆ 读后感 罗马史-得到 阅读全文
posted @ 2020-12-12 10:37 宁君 阅读(323) 评论(1) 推荐(0) 编辑
摘要: 问题: hbase 集群启动不了,maste一直在初始化,数据面临丢失风险。 解决: 把hbfs上 /hbase 目录移走 改名为/hbase-bak 删除zk上的数据,重新建立一个新的hbase集群. 使用如下代码, 把/hbase-bak里面的数据恢复到 现有的hbase集群中. public 阅读全文
posted @ 2020-12-11 21:15 宁君 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行! 原创 Apache 博客 Flink 中文社区 翻译 | 付典 Review | 徐榜江、朱翥 Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flin 阅读全文
posted @ 2020-12-10 21:22 宁君 阅读(303) 评论(0) 推荐(0) 编辑
摘要: import org.apache.flink.table.api.*; import org.apache.flink.table.catalog.hive.HiveCatalog; /** * @Auther WeiJiQian * @描述 */ public class FlinkReadHi 阅读全文
posted @ 2020-12-04 23:00 宁君 阅读(1734) 评论(2) 推荐(0) 编辑