晓枫的春天 - 博客园

2022年4月4日

摘要： 1.1、副本基本信息 Kafka副本作用：提高数据可靠性。 Kafka默认副本1个，生产环境一般配置为2个，保证数据可靠性；太多副本会增加磁盘存储空间，增加网络上数据传输，降低效率。 Kafka中副本分为：Leader和Follower。Kafka生产者只会把数据发往Leader，然后Followe 阅读全文

posted @ 2022-04-04 16:20 晓枫的春天阅读(95) 评论(0) 推荐(0)

2022年4月2日

Flink 水位线简介

摘要：什么是水位线在事件时间语义下，我们不依赖系统时间，而是基于数据自带的时间戳去定义了一个时钟，用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟，它的前进是靠数据的时间戳来驱动的。但在分布式系统中，这种驱动方式又会有一些问题。因为数据本身在处理转换的过程中会变化，如果遇到窗口聚合这样阅读全文

posted @ 2022-04-02 18:14 晓枫的春天阅读(1431) 评论(5) 推荐(1)

2022年4月1日

zookeeper高颜值的可视化工具-PrettyZoo

摘要： PrettyZoo下载安装下载 PrettyZoo是一款基于 Apache Curator 和 JavaFX 实现的 Zookeeper 图形化管理客户端。颜值很高，使用方便，非常推荐童鞋们使用。下载地址 https://github.com/vran-dev/PrettyZoo/release 阅读全文

posted @ 2022-04-01 06:44 晓枫的春天阅读(1315) 评论(0) 推荐(0)

2022年3月31日

Kafka Broker（一）

摘要： 1、Kafka Broker 工作流程 1.1、Zookeeper 存储的 Kafka 信息 [hui@hadoop103 zookeeper-3.4.10]$ bin/zkCli.sh [zk: localhost:2181(CONNECTED) 0] ls / [zookeeper, spark 阅读全文

posted @ 2022-03-31 08:02 晓枫的春天阅读(358) 评论(0) 推荐(0)

2022年3月30日

kafka 生产者（二）

摘要： 1、提高吞吐量想要提高生产者的吞吐量可以通过调整一下4个参数来实现 batch.size：批次大小，默认16k linger.ms：等待时间，修改为5-100ms compression.type：压缩snappy RecordAccumulator：缓冲区大小，修改为64m 代码实现 publi 阅读全文

posted @ 2022-03-30 07:22 晓枫的春天阅读(126) 评论(0) 推荐(0)

2022年3月29日

kafka 生产者（一）

摘要： 1、生产者消息发送流程 1.1、发送原理在消息发送的过程中，涉及到了两个线程——main线程和Sender线程。在main线程中创建了一个双端队列RecordAccumulator。main线程将消息发送给RecordAccumulator，Sender线程不断从RecordAccumulator 阅读全文

posted @ 2022-03-29 16:35 晓枫的春天阅读(384) 评论(0) 推荐(0)

2022年3月28日

Kafka 基本使用

摘要： 1、安装部署 1.1、集群规划 hadoop103 hadoop104 hadoop105 zk zk zk kafka kafka kafka 1.2、安装&配置下载地址 https://kafka.apache.org/downloads.html 解压安装包，重命名安装路径 [hui@had 阅读全文

posted @ 2022-03-28 14:37 晓枫的春天阅读(127) 评论(0) 推荐(0)

2022年3月27日

nohup: 无法运行命令 ‘/bin/java‘: 没有那个文件或目录

摘要：问题场景单独执行 /opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties 可以正常启动 kafka 但是封装了群起脚本如下 #!/bin/sh case $1 in 阅读全文

posted @ 2022-03-27 12:30 晓枫的春天阅读(1370) 评论(0) 推荐(1)

Kafka 概述

摘要： 1、Kafka 定义 Kafka传统定义：Kafka是一个分布式的基于发布/订阅模式的消息队列（MessageQueue），主要应用于大数据实时处理领域；发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息； Kafka最新定义：Kaf 阅读全文

posted @ 2022-03-27 09:24 晓枫的春天阅读(120) 评论(0) 推荐(0)

2022年3月25日

Flink 时间语义

摘要：在流数据处理应用中，一个很重要很常见的的操作就是窗口计算。这里的窗口指的是划定的一段时间范围，即时间窗，在这个范围内的数据进行数据处理就是我们所说的窗口计算，因此窗口和时间是分不开的。一、FLink 时间语义时间从理论和哲学的角度解释有一点玄妙，但对于普通人来说，时间其实是生活中在熟悉不过的一个阅读全文

posted @ 2022-03-25 17:28 晓枫的春天阅读(260) 评论(0) 推荐(0)

滴水穿石不是靠力，而是因为不舍昼夜。

公告