上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 45 下一页
摘要: 1、Kafka Broker 工作流程 1.1、Zookeeper 存储的 Kafka 信息 [hui@hadoop103 zookeeper-3.4.10]$ bin/zkCli.sh [zk: localhost:2181(CONNECTED) 0] ls / [zookeeper, spark 阅读全文
posted @ 2022-03-31 08:02 晓枫的春天 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 1、提高吞吐量 想要提高生产者的吞吐量可以通过调整一下4个参数来实现 batch.size:批次大小,默认16k linger.ms:等待时间,修改为5-100ms compression.type:压缩snappy RecordAccumulator:缓冲区大小,修改为64m 代码实现 publi 阅读全文
posted @ 2022-03-30 07:22 晓枫的春天 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 1、生产者消息发送流程 1.1、发送原理 在消息发送的过程中,涉及到了两个线程——main线程和Sender线程。在main线程中创建了一个双端队列RecordAccumulator。main线程将消息发送给RecordAccumulator,Sender线程不断从RecordAccumulator 阅读全文
posted @ 2022-03-29 16:35 晓枫的春天 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 1、安装部署 1.1、集群规划 hadoop103 hadoop104 hadoop105 zk zk zk kafka kafka kafka 1.2、安装&配置 下载地址 https://kafka.apache.org/downloads.html 解压安装包,重命名安装路径 [hui@had 阅读全文
posted @ 2022-03-28 14:37 晓枫的春天 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 问题场景 单独执行 /opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties 可以正常启动 kafka 但是封装了群起脚本如下 #!/bin/sh case $1 in 阅读全文
posted @ 2022-03-27 12:30 晓枫的春天 阅读(1145) 评论(0) 推荐(1) 编辑
摘要: 1、Kafka 定义 Kafka传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据实时处理领域; 发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息; Kafka最新定义:Kaf 阅读全文
posted @ 2022-03-27 09:24 晓枫的春天 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 在流数据处理应用中,一个很重要很常见的的操作就是窗口计算。这里的窗口指的是划定的一段时间范围,即时间窗,在这个范围内的数据进行数据处理就是我们所说的窗口计算,因此窗口和时间是分不开的。 一、FLink 时间语义 时间从理论和哲学的角度解释有一点玄妙,但对于普通人来说,时间其实是生活中在熟悉不过的一个 阅读全文
posted @ 2022-03-25 17:28 晓枫的春天 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一、Scala 概述 Scala是一门多范式(multi-paradigm)的编程语言,Scala支持面向对象和函数式编程 Scala源代码(.scala)会被编译成Java字节码(.class),然后运行于JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接. scala单作为一门语言 阅读全文
posted @ 2022-03-24 09:26 晓枫的春天 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 一、写在前面 一直有一个想法:先把 spark 系统的学习一下,不要在三天打鱼两天晒网了,也是本着对自己负责,对未来负责的态度,就先总结一下学习Scala的所有小知识吧,希望自己能够坚持下来。加油。 二、REPL 环境配置 Scala安装文件下载地址 https://www.scala-lang.o 阅读全文
posted @ 2022-03-23 12:31 晓枫的春天 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 分区概述 分区是大数据处理中一个非常重要的一环。分区是将数据进行重新分布,传输到不同的通道进行下一步数据处理。之前在进行 wordcount 的时候已经使用过有关分区的算子 keyby,keiby 是按照键的哈希值进行的重分区操作。 KeyedStream<Tuple2<String, Long>, 阅读全文
posted @ 2022-03-22 14:52 晓枫的春天 阅读(497) 评论(0) 推荐(0) 编辑
上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 45 下一页