08 2019 档案

摘要:Hive on Tez Mapper 数量计算 在Hive 中执行一个query时,我们可以发现Hive 的执行引擎在使用 Tez 与 MR时,两者生成mapper数量差异较大。 主要原因在于 Tez 中对 inputSplit 做了 grouping 操作,将多个 inputSplit 组合成更少 阅读全文
posted @ 2019-08-30 15:19 ZacksTang 阅读(4260) 评论(2) 推荐(0)
摘要:Kafka Delivery Semantics 在Kafka Consumer中,有3种delivery semantics,分别为:至多一次(at most once)、至少一次(at least once)、以及准确一次(exactly once),下面我们分别介绍这3种Delivery 语义 阅读全文
posted @ 2019-08-29 10:08 ZacksTang 阅读(563) 评论(0) 推荐(0)
摘要:Kafka ElasticSearch Consumer 对于Kafka Consumer,我们会写一个例子用于消费Kafka 数据传输到ElasticSearch。 1. 构造ElasticSearch 基本代码 我们使用如下代码构造一个 Elastic Search Client,并向 ES写入 阅读全文
posted @ 2019-08-29 10:04 ZacksTang 阅读(441) 评论(0) 推荐(0)
摘要:High Throughput Producer 在有大量消息需要发送的情况下,默认的Kafka Producer配置可能无法达到一个可观的的吞吐。在这种情况下,我们可以考虑调整两个方面,以提高Producer 的吞吐。分别为消息压缩(message compression),以及消息批量发送(ba 阅读全文
posted @ 2019-08-28 11:22 ZacksTang 阅读(757) 评论(0) 推荐(0)
摘要:Kafka Safe Producer 在应用Kafka的场景中,需要考虑到在异常发生时(如网络异常),被发送的消息有可能会出现丢失、乱序、以及重复消息。 对于这些情况,我们可以创建一个“safe producer”,用于规避这些问题。下面我们会先介绍对于这几种情况的说明以及配置,最后给出一个配置示 阅读全文
posted @ 2019-08-25 19:53 ZacksTang 阅读(871) 评论(0) 推荐(0)
摘要:1. Produer 1.1. 基本 Producer 首先使用 maven 构建相关依赖,这里我们服务器kafka 版本为 2.12-2.3.0,pom.xml 文件为: 1 <?xml version="1.0" encoding="UTF-8"?> 2 <project xmlns="http 阅读全文
posted @ 2019-08-11 18:28 ZacksTang 阅读(1744) 评论(0) 推荐(0)
摘要:1. Topics CLI 1.1 首先启动 zookeeper 与 kafka > zookeeper-server-start.sh config/zookeeper.properties … INFO binding to port 0.0.0.0/0.0.0.0:2181 (org.apac 阅读全文
posted @ 2019-08-11 11:54 ZacksTang 阅读(1773) 评论(0) 推荐(0)
摘要:安装并启动Kafka 1.下载最新版Kafka(当前为kafka_2.12-2.3.0)并解压: > wget http://mirror.bit.edu.cn/apache/kafka/2.3.0/kafka_2.12-2.3.0.tgz > tar zxvf kafka_2.12-2.3.0.t 阅读全文
posted @ 2019-08-06 18:29 ZacksTang 阅读(426) 评论(0) 推荐(0)
摘要:Apache Kafka 1. Kafka简介、优势、以及使用场景 Kafka的优势: 开源 分布式,弹性架构,fault tolerant 水平扩展: 可以扩展到100个brokers 可以扩展到每秒百万级条消息 高性能(延迟少于10ms)-- 实时 使用场景: 消息系统 活动追踪(Activit 阅读全文
posted @ 2019-08-06 17:45 ZacksTang 阅读(740) 评论(1) 推荐(0)