ZacksTang

2019年10月22日

HBase 中 Memstore-Local Allocation Buffer

摘要：在0.90 版本后的 HBase，引入了一个高级机制用于缓解堆内存碎片的问题。此内存碎片问题的产生的主要原因是由于 memstore 上的扰动（频繁的分配与释放内存空间）导致。对应解决此问题的机制为Memstore-Local Allocation Buffer，简称MSLAB。在一个memsto 阅读全文

posted @ 2019-10-22 14:53 ZacksTang 阅读(394) 评论(0) 推荐(0) 编辑

2019年10月8日

Apache Kafka（十二）Log Cleanup 策略

摘要： Log Cleanup 策略在Kafka中，存在数据过期的机制，称为data expire。如何处理过期数据是根据指定的policy（策略）决定的，而处理过期数据的行为，即为log cleanup。在Kafka中有以下几种处理过期数据的策略： · log.cleanup.policy=delet 阅读全文

posted @ 2019-10-08 21:44 ZacksTang 阅读(6015) 评论(0) 推荐(0) 编辑

2019年10月6日

Apache Kafka（十一）Topic 的配置与组成

摘要： Topic 的配置与组成之前我们仅主要介绍了Kafka Producer与Kafka Consumer 的相关配置，而未详细介绍过有关topic的配置。Topic的配置在Kafka 使用中也至关重要，因为它的参数足以影响集群性能以及topic 的行为。在一个topic被创建后，会有它默认的参数，阅读全文

posted @ 2019-10-06 17:56 ZacksTang 阅读(1130) 评论(0) 推荐(0) 编辑

2019年9月23日

HBase 中的 JVM 与 GC

摘要： HBase中JVM基本配置在JVM中，默认情况下会设置minimum heap size 为 1/64 可用物理内存，并为maximum heap size设置 1/4 的物理可用内存（不过在Java8 之前，默认最大是1g）。当然，我们可以通过手动指定 JVM 参数，配置JVM的内存，例如： - 阅读全文

posted @ 2019-09-23 17:50 ZacksTang 阅读(2102) 评论(0) 推荐(0) 编辑

2019年9月16日

Apache Kafka（十）Partitions与Replication Factor 调整准则

摘要： Partitions与Replication Factor调整准则 Partition 数目与Replication Factor是在创建一个topic时非常重要的两个参数，这两个参数的取值会直接影响到系统的性能与稳定性。尽量在第一次创建一个topic时就指定这两个参数，因为如果Partitio 阅读全文

posted @ 2019-09-16 10:16 ZacksTang 阅读(7221) 评论(0) 推荐(1) 编辑

2019年9月15日

Kafka Stream 以及其他流处理框架对比

摘要： 1. Kafka Stream Introduction 假设我们需要对kafka 消息做流数据分析，例如：对部分消息做过滤每分钟计算一次收到了多少消息这种情况下，对于消息过滤以及定时统计，甚至是进行流的合并，是几个基本的流式处理。但是在这种情况下，仅使用Kafka Producer 与 Co 阅读全文

posted @ 2019-09-15 14:11 ZacksTang 阅读(2636) 评论(0) 推荐(0) 编辑

2019年9月12日

Apache Kafka（九）- Kafka Consumer 消费行为

摘要： 1. Poll Messages 在Kafka Consumer 中消费messages时，使用的是poll模型，也就是主动去Kafka端取数据。其他消息管道也有的是push模型，也就是服务端向consumer推送数据，consumer仅需等待即可。 Kafka Consumer的poll模型使得c 阅读全文

posted @ 2019-09-12 21:14 ZacksTang 阅读(5274) 评论(0) 推荐(0) 编辑

2019年8月30日

Hive on Tez 中 Map 任务的数量计算

摘要： Hive on Tez Mapper 数量计算在Hive 中执行一个query时，我们可以发现Hive 的执行引擎在使用 Tez 与 MR时，两者生成mapper数量差异较大。主要原因在于 Tez 中对 inputSplit 做了 grouping 操作，将多个 inputSplit 组合成更少阅读全文

posted @ 2019-08-30 15:19 ZacksTang 阅读(3965) 评论(2) 推荐(0) 编辑

2019年8月29日

Apache Kafka（八）- Kafka Delivery Semantics for Consumers

摘要： Kafka Delivery Semantics 在Kafka Consumer中，有3种delivery semantics，分别为：至多一次（at most once）、至少一次（at least once）、以及准确一次（exactly once），下面我们分别介绍这3种Delivery 语义阅读全文

posted @ 2019-08-29 10:08 ZacksTang 阅读(507) 评论(0) 推荐(0) 编辑

Apache Kafka（七）- Kafka ElasticSearch Comsumer

摘要： Kafka ElasticSearch Consumer 对于Kafka Consumer，我们会写一个例子用于消费Kafka 数据传输到ElasticSearch。 1. 构造ElasticSearch 基本代码我们使用如下代码构造一个 Elastic Search Client，并向 ES写入阅读全文

posted @ 2019-08-29 10:04 ZacksTang 阅读(415) 评论(0) 推荐(0) 编辑

公告