摘要:
由于Flink on Yarn的部署需要hadoop的依赖: 比较常见的解决方式会将hadoop calsspath放在Linux的系统环境变量下,但是这里会影响Hive的日志级别,导致Hive打印过多的INFO日志。 解决方案有两种: 1. 将hadoop classpath加入到fink的局部配 阅读全文
摘要:
首日全量导入,要去先开启Maxwellbin/maxwell-bootstrap --database databaseName --config config.properties --table sku_info 阅读全文
摘要:
如果算子之间的分区规则是forward(One-to-One),则watermark也采取forward的方式传播。 如果算子之间的分区规则是hash,则采用广播的方式传播,其他的重新分区的算子应该也类似。 在watermark广播的策略下,下游所有的事件时钟都会相等。 阅读全文
摘要:
1 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 2 xsi:schemaLocation="http://maven.apache.o 阅读全文
摘要:
hive 的空值 结论,string默认的空值只能是\N, 因为string本身区分大小写,且要双重转义'\\N'插入空值;而其他类型\n和\N都会识别成空值。 在通过*和1进行聚合计算的时候,所有的行都会计入,而聚合某个字段时,空值不会被计算。如count(*) = count(1) > coun 阅读全文
摘要:
SQL常说用小表驱动大表,网上很多帖子也是说hive也是小表驱动大表。 但实际用expalin执行计划测的时候,Left Join大表写在前面时执行了MapJoin,小表写前面反而没采用MapJoin,为了确定确实是表大小的顺序原因,我更改了set hive.mapjoin.smalltable.f 阅读全文
摘要:
兼容性,有向上兼容和向下兼容的差别。 新版本能够支持旧版本就是向下兼容。新版本有些时候可以向下兼容,但是很多时候也需要放弃旧代码的,这个时候旧的客户端就需要找到能够兼容他的老版dll。也就是产生了分支版本。 第二,向上兼容是旧版本能够兼容新版本。如果向下向上都兼容,那就是完全的兼容,就没有必要产生分 阅读全文
摘要:
一、简介 Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。 流处理平台有以下3个特性: 可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。 可以储存流式的记录,并且有较好的容错性。 可以在流式记录产生时就进 阅读全文
摘要:
一、概述 我们先来回顾一下事务的概念:要么全部成功,要么全部失败! Kafka 事务也是一样的。 Kafka 0.11.0.0 后,引入了重大特性——幂等性与事务。为什么讲事务还有 Q 一下幂等性呢?因为事务实际上就是基于幂等性实现的,因此,了解事务是如何工作之前我们还得了解幂等性是如何工作的。 本 阅读全文
摘要:
Kafka有两个很重要的配置参数,acks与min.insync.replicas.其中acks是producer的配置参数,min.insync.replicas是Broker端的配置参数,这两个参数对于生产者不丢失数据起到了很大的作用.接下来,本文会以图示的方式讲解这两个参数的含义和使用方式。通 阅读全文