上一页 1 2 3 4 5 6 ··· 13 下一页

2022年6月1日

hive 之 beeline连接hive报错: hadoop is not allowed to impersonate hive(state=08S01,code=0)

摘要: 场景 使用beeline连接hive时报错。 [hadoop@bigdata02 ~]$ beeline -u "jdbc:hive2://bigdata01:10000/lzh" -n hadoop -p 123 错误信息 Error: Could not open client transpor 阅读全文

posted @ 2022-06-01 11:52 Simple-Sir 阅读(709) 评论(0) 推荐(0) 编辑

2022年5月31日

初识spark 之 读写MySql数据

摘要: 需求 1、使用spark读取MySql库数据; 2、使用spark读取MySql库数据,并写入另一张表。 实现代码 1 package com.lzh.sql.数据加载保存 2 3 import org.apache.spark.SparkConf 4 import org.apache.spark 阅读全文

posted @ 2022-05-31 16:54 Simple-Sir 阅读(559) 评论(0) 推荐(0) 编辑

2022年5月26日

spark 之 windows下基于IDEA2021.3.3搭建spark开发环境实现wordcount功能

摘要: 注* [写的很细,内容有点长,可以选择目录跳转] 环境准备 因为Spark是scala语言开发的,scala是java语言开发的,所以需要安装JDK和scala。 JDK1.8 maven-3.8.5 Scala-2.12.15 IDEA-2021.3.3 JDK 注意: 是安装JDK不是JAVA( 阅读全文

posted @ 2022-05-26 13:50 Simple-Sir 阅读(570) 评论(0) 推荐(0) 编辑

2022年5月24日

linux 之 循环一段时间内的每一天

摘要: for((i=`date -d "20210102" "+%s"`;i<=`date -d "20210311" "+%s"`;i+=86400)) do day=`date -d "@${i}" "+%Y%m%d"` echo ${day} done 阅读全文

posted @ 2022-05-24 11:51 Simple-Sir 阅读(147) 评论(0) 推荐(0) 编辑

2022年4月15日

初识kafka 之 指定时间开始消费

摘要: 需求 在生产环境中,会遇到最近消费的几个小时数据异常,想重新按照时间消费。 例如,要求按照时间,消费前一天的数据。 关键字 OffsetAndTimestamp offsetAndTimestamp = topicPartitionOffsetAndTimestampMap.get(topicPar 阅读全文

posted @ 2022-04-15 16:40 Simple-Sir 阅读(2274) 评论(0) 推荐(0) 编辑

初识kafka 之 指定offset位置开始消费

摘要: 关键字 kafkaConsumer.seek(topicPartition,100); // 指定offset 实现代码 package com.lzh.kafka; import org.apache.kafka.clients.consumer.ConsumerConfig; import or 阅读全文

posted @ 2022-04-15 16:36 Simple-Sir 阅读(3025) 评论(0) 推荐(0) 编辑

初识kafka 之 消费者手动提交offset

摘要: 手动提交offset 手动提交offset的方法有两种:分别是commitSync(同步提交)和commitAsync(异步提交)。 相同点:都会将本次提交的一批数据最高的偏移量提交 不同点: 同步提交:阻塞当前线程,一直到提交成功,并且会自动失败重试(由不可控因素导致,也会出现提交失败); 异步提 阅读全文

posted @ 2022-04-15 16:32 Simple-Sir 阅读(928) 评论(0) 推荐(0) 编辑

初识kafka 之 消费者API

摘要: 需求 创建一个消费者,消费Mytopic主题指定分区3中的数据。 实现代码 package com.lzh.kafka; import org.apache.kafka.clients.consumer.ConsumerConfig; import org.apache.kafka.clients. 阅读全文

posted @ 2022-04-15 15:29 Simple-Sir 阅读(108) 评论(0) 推荐(0) 编辑

2022年4月14日

初识kafka 之 吞吐量控制

摘要: buffer.memory 缓冲区大小,默认 32M properties.put(ProducerConfig.BUFFER_MEMORY_CONFIG,33554432); batch.size 批次大小,默认16k properties.put(ProducerConfig.BATCH_SIZ 阅读全文

posted @ 2022-04-14 15:58 Simple-Sir 阅读(201) 评论(0) 推荐(0) 编辑

初识kafka 之 自定义分区器

摘要: 需求 通过一个分区器实现,发送过来的数据中如果包含kafka,就发往0号分区,不包含kafka,就发往1号分区。 代码实现 分区器 package com.lzh.kafka; import org.apache.kafka.clients.producer.Partitioner; import 阅读全文

posted @ 2022-04-14 15:32 Simple-Sir 阅读(235) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 13 下一页

导航