Avery_rainys

2022年11月20日

摘要：由于Flink on Yarn的部署需要hadoop的依赖：比较常见的解决方式会将hadoop calsspath放在Linux的系统环境变量下，但是这里会影响Hive的日志级别，导致Hive打印过多的INFO日志。解决方案有两种： 1. 将hadoop classpath加入到fink的局部配阅读全文

posted @ 2022-11-20 11:36 Avery_rainys 阅读(1131) 评论(0) 推荐(0)

2022年11月15日

Maxwell常用命令

摘要：首日全量导入，要去先开启Maxwellbin/maxwell-bootstrap --database databaseName --config config.properties --table sku_info 阅读全文

posted @ 2022-11-15 13:56 Avery_rainys 阅读(144) 评论(0) 推荐(0)

2022年11月2日

Flink水印的传播规律

摘要：如果算子之间的分区规则是forward(One-to-One)，则watermark也采取forward的方式传播。如果算子之间的分区规则是hash，则采用广播的方式传播，其他的重新分区的算子应该也类似。在watermark广播的策略下，下游所有的事件时钟都会相等。阅读全文

posted @ 2022-11-02 23:23 Avery_rainys 阅读(69) 评论(0) 推荐(0)

2022年10月5日

大数据常用Maven依赖

摘要： 1 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 2 xsi:schemaLocation="http://maven.apache.o 阅读全文

posted @ 2022-10-05 10:21 Avery_rainys 阅读(62) 评论(0) 推荐(0)

2022年9月22日

hive的空值

摘要： hive 的空值结论，string默认的空值只能是\N, 因为string本身区分大小写，且要双重转义'\\N'插入空值；而其他类型\n和\N都会识别成空值。在通过*和1进行聚合计算的时候，所有的行都会计入，而聚合某个字段时，空值不会被计算。如count(*) = count(1) > coun 阅读全文

posted @ 2022-09-22 10:39 Avery_rainys 阅读(190) 评论(0) 推荐(0)

2022年9月21日

MapJoin与小表驱动大表

摘要： SQL常说用小表驱动大表，网上很多帖子也是说hive也是小表驱动大表。但实际用expalin执行计划测的时候，Left Join大表写在前面时执行了MapJoin,小表写前面反而没采用MapJoin，为了确定确实是表大小的顺序原因，我更改了set hive.mapjoin.smalltable.f 阅读全文

posted @ 2022-09-21 09:03 Avery_rainys 阅读(550) 评论(0) 推荐(0)

2022年9月10日

关于版本兼容性

摘要：兼容性，有向上兼容和向下兼容的差别。新版本能够支持旧版本就是向下兼容。新版本有些时候可以向下兼容，但是很多时候也需要放弃旧代码的，这个时候旧的客户端就需要找到能够兼容他的老版dll。也就是产生了分支版本。第二，向上兼容是旧版本能够兼容新版本。如果向下向上都兼容，那就是完全的兼容，就没有必要产生分阅读全文

posted @ 2022-09-10 17:08 Avery_rainys 阅读(260) 评论(0) 推荐(0)

2022年9月8日

Kafka 原理以及分区分配策略剖析【转】

摘要：一、简介 Apache Kafka 是一个分布式的流处理平台（分布式的基于发布/订阅模式的消息队列【Message Queue】）。流处理平台有以下3个特性：可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。可以储存流式的记录，并且有较好的容错性。可以在流式记录产生时就进阅读全文

posted @ 2022-09-08 19:57 Avery_rainys 阅读(96) 评论(0) 推荐(0)

面试官：Kafka 事务是如何工作的？【转】

摘要：一、概述我们先来回顾一下事务的概念：要么全部成功，要么全部失败！ Kafka 事务也是一样的。 Kafka 0.11.0.0 后，引入了重大特性——幂等性与事务。为什么讲事务还有 Q 一下幂等性呢？因为事务实际上就是基于幂等性实现的，因此，了解事务是如何工作之前我们还得了解幂等性是如何工作的。本阅读全文

posted @ 2022-09-08 17:10 Avery_rainys 阅读(237) 评论(0) 推荐(0)

Kafka的ACK应答机制【转】

摘要： Kafka有两个很重要的配置参数，acks与min.insync.replicas.其中acks是producer的配置参数，min.insync.replicas是Broker端的配置参数，这两个参数对于生产者不丢失数据起到了很大的作用.接下来，本文会以图示的方式讲解这两个参数的含义和使用方式。通阅读全文

posted @ 2022-09-08 16:33 Avery_rainys 阅读(737) 评论(0) 推荐(1)

公告