随笔档案「2022年9月」 - Avery_rainys

hive的空值

摘要：hive 的空值结论，string默认的空值只能是\N, 因为string本身区分大小写，且要双重转义'\\N'插入空值；而其他类型\n和\N都会识别成空值。在通过*和1进行聚合计算的时候，所有的行都会计入，而聚合某个字段时，空值不会被计算。如count(*) = count(1) > coun 阅读全文

posted @ 2022-09-22 10:39 Avery_rainys 阅读(200) 评论(0) 推荐(0)

MapJoin与小表驱动大表

摘要：SQL常说用小表驱动大表，网上很多帖子也是说hive也是小表驱动大表。但实际用expalin执行计划测的时候，Left Join大表写在前面时执行了MapJoin,小表写前面反而没采用MapJoin，为了确定确实是表大小的顺序原因，我更改了set hive.mapjoin.smalltable.f 阅读全文

posted @ 2022-09-21 09:03 Avery_rainys 阅读(562) 评论(0) 推荐(0)

关于版本兼容性

摘要：兼容性，有向上兼容和向下兼容的差别。新版本能够支持旧版本就是向下兼容。新版本有些时候可以向下兼容，但是很多时候也需要放弃旧代码的，这个时候旧的客户端就需要找到能够兼容他的老版dll。也就是产生了分支版本。第二，向上兼容是旧版本能够兼容新版本。如果向下向上都兼容，那就是完全的兼容，就没有必要产生分阅读全文

posted @ 2022-09-10 17:08 Avery_rainys 阅读(292) 评论(0) 推荐(0)

Kafka 原理以及分区分配策略剖析【转】

摘要：一、简介 Apache Kafka 是一个分布式的流处理平台（分布式的基于发布/订阅模式的消息队列【Message Queue】）。流处理平台有以下3个特性：可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。可以储存流式的记录，并且有较好的容错性。可以在流式记录产生时就进阅读全文

posted @ 2022-09-08 19:57 Avery_rainys 阅读(110) 评论(0) 推荐(0)

面试官：Kafka 事务是如何工作的？【转】

摘要：一、概述我们先来回顾一下事务的概念：要么全部成功，要么全部失败！ Kafka 事务也是一样的。 Kafka 0.11.0.0 后，引入了重大特性——幂等性与事务。为什么讲事务还有 Q 一下幂等性呢？因为事务实际上就是基于幂等性实现的，因此，了解事务是如何工作之前我们还得了解幂等性是如何工作的。本阅读全文

posted @ 2022-09-08 17:10 Avery_rainys 阅读(248) 评论(0) 推荐(0)

Kafka的ACK应答机制【转】

摘要：Kafka有两个很重要的配置参数，acks与min.insync.replicas.其中acks是producer的配置参数，min.insync.replicas是Broker端的配置参数，这两个参数对于生产者不丢失数据起到了很大的作用.接下来，本文会以图示的方式讲解这两个参数的含义和使用方式。通阅读全文

posted @ 2022-09-08 16:33 Avery_rainys 阅读(755) 评论(0) 推荐(1)

Spark中的Spark Shuffle详解[转]

摘要：Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下，阅读全文

posted @ 2022-09-04 00:24 Avery_rainys 阅读(135) 评论(0) 推荐(0)

Spark任务调度机制【转】

摘要：Spark任务调度机制论述在生产环境下，Spark集群的部署方式一般为YARN-Cluster模式。 Driver线程主要是初始化SparkContext对象，准备运行所需的上下文，然后一方面保持与ApplicationMaster的RPC连接，通过ApplicationMaster申请资源，另一阅读全文

posted @ 2022-09-03 16:35 Avery_rainys 阅读(444) 评论(0) 推荐(0)

Avery_rainys

09 2022 档案

公告