摘要:
一个Applciation运行在YARN上的流程为,从YARN Client向ResourceManager提交任务,将Applciation所需资源提交到HDFS中,然后ResourceManager启动APPMaster,APPMaster通知各个NodeManager启动container执行 阅读全文
摘要:
什么是 Rebalance? Rebalance 为什么会发生? Rebalance 的过程 记得之前在一段时间密集面试的时候总会问候选人这些问题。 什么是 Rebalance 重平衡 Rebalance 就是让整个 Consumer Group 下的所有的 Consumer 实例久如何消费订阅主题 阅读全文
摘要:
Kafka 中有这样一个概念消费者组,所有我们去订阅 topic 和 topic 交互的一些操作我们都是通过消费者组去交互的。 在 consumer 端设置了消费者的名字之后,该客户端可以对多个 topic 进行订阅。我们也可以通过 group-id 来识别是谁在消费消息,或者在消费哪些组的消息。 阅读全文
摘要:
今天发生了与之前某篇博客相似的问题,有同学在不同步的 binlog 库中使用语句 database.table 命令对表进行 drop 导致 master 丢弃该表但是从库并未能同步到该操作。并且后续又实用 use xxxx 对该表进行增删字段,由于salve 并未建立此表于是 slave 崩溃的情 阅读全文
摘要:
第一个问题 HUE 无法直接连接到 HBase 在默认配置下 CDH 6.0.1 版本下的 HBase2.0 使用了默认配置 也就是是被勾选的状态,但是 HUE 我找了半天发现无法配置 thift.compact 的启用。所以要使用 hue 来使用 HBase 2.0 就需要把这个 HBase 的参 阅读全文
摘要:
Kafka 提供了一个消息交付可靠性保障以及精确处理一次语义的实现。通常来说消息队列都提供多种消息语义保证 最多一次 (at most once): 消息可能会丢失,但绝不会被重复发送。 至少一次 (at least once): 消息不会丢失,但有可能被重复发送。 精确一次 (exactly on 阅读全文
摘要:
本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念,我们拿一个常用的场景进行引入: 引文## 在写一个服务端程序时(Web Server或者文件服务器),文件下载是一个基本功能。这时候服务端的任务是:将服务端主机磁盘中的文件不做修改地从已连接的socket发 阅读全文
摘要:
之前使用 Kafka 的客户端消费者比较多一点,而且也是无脑订阅使用也没有深入了解过具体的参数。总的来说使用不够细节。 这次公司项目活动期间暴露非常多的问题,于是有了这篇文章。 首先我们来拆解一下 Kafka KafkaProducer 类给我们暴露的参数,我会依次介绍一下这些参数的功能以及效果,其 阅读全文
摘要:
1.前言 hdfs , Hadoop Distributed File System。Hadoop的分布式文件系统,安全行和扩展性没得说。 访问HDFS的方式有以下几种: 使用python访问HDFS比较容易: python 封装FS Shell, 这种方式本地必须部署了Hadoop 的 FS Sh 阅读全文
摘要:
最近在 HUE 里面查询有中文字段相关的东西被报错警告。。。 通过调整 HUE 使用的某些元数据表的表编码来解决这个问题: 在书写在 MySQL 中能使用的语句的时候还遇到一些无法直接在 hive 或者 presto 中运行的兼容性问题。 例如: presto 可以运行的版本 hive 可以运行个的 阅读全文