07 2019 档案
摘要:前文「CDH CM版本 6.0.1 升级到 CM 6.2.0 当前最新版本(CentOS 7.x)」 承接上文,当我们完成 CM 6.2.0 的升级之后,我们已经相当于完成了80% minor 的升级。 让人意外的是 CDH 自己版本的升级远比 CM 的升级来得容易。 先对 CM 数据进行备份,步骤
阅读全文
摘要:CDH 的 6.0.1 是一个尴尬的版本,那时候 cloudera 还没有将 spark 更新到 2.4 还使用的是 spark 2.2版本。 但后来我们发现 2.3 | 2.4 更新了非常多的 feature 和修复了一些 bug 以及更新了很多包括 structed streaming 特性。并
阅读全文
摘要:一个Applciation运行在YARN上的流程为,从YARN Client向ResourceManager提交任务,将Applciation所需资源提交到HDFS中,然后ResourceManager启动APPMaster,APPMaster通知各个NodeManager启动container执行
阅读全文
摘要:什么是 Rebalance? Rebalance 为什么会发生? Rebalance 的过程 记得之前在一段时间密集面试的时候总会问候选人这些问题。 什么是 Rebalance 重平衡 Rebalance 就是让整个 Consumer Group 下的所有的 Consumer 实例久如何消费订阅主题
阅读全文
摘要:Kafka 中有这样一个概念消费者组,所有我们去订阅 topic 和 topic 交互的一些操作我们都是通过消费者组去交互的。 在 consumer 端设置了消费者的名字之后,该客户端可以对多个 topic 进行订阅。我们也可以通过 group-id 来识别是谁在消费消息,或者在消费哪些组的消息。
阅读全文
摘要:今天发生了与之前某篇博客相似的问题,有同学在不同步的 binlog 库中使用语句 database.table 命令对表进行 drop 导致 master 丢弃该表但是从库并未能同步到该操作。并且后续又实用 use xxxx 对该表进行增删字段,由于salve 并未建立此表于是 slave 崩溃的情
阅读全文
摘要:第一个问题 HUE 无法直接连接到 HBase 在默认配置下 CDH 6.0.1 版本下的 HBase2.0 使用了默认配置 也就是是被勾选的状态,但是 HUE 我找了半天发现无法配置 thift.compact 的启用。所以要使用 hue 来使用 HBase 2.0 就需要把这个 HBase 的参
阅读全文
摘要:Kafka 提供了一个消息交付可靠性保障以及精确处理一次语义的实现。通常来说消息队列都提供多种消息语义保证 最多一次 (at most once): 消息可能会丢失,但绝不会被重复发送。 至少一次 (at least once): 消息不会丢失,但有可能被重复发送。 精确一次 (exactly on
阅读全文
摘要:本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念,我们拿一个常用的场景进行引入: 引文## 在写一个服务端程序时(Web Server或者文件服务器),文件下载是一个基本功能。这时候服务端的任务是:将服务端主机磁盘中的文件不做修改地从已连接的socket发
阅读全文
摘要:之前使用 Kafka 的客户端消费者比较多一点,而且也是无脑订阅使用也没有深入了解过具体的参数。总的来说使用不够细节。 这次公司项目活动期间暴露非常多的问题,于是有了这篇文章。 首先我们来拆解一下 Kafka KafkaProducer 类给我们暴露的参数,我会依次介绍一下这些参数的功能以及效果,其
阅读全文