09 2022 档案

摘要:hive 的空值 结论,string默认的空值只能是\N, 因为string本身区分大小写,且要双重转义'\\N'插入空值;而其他类型\n和\N都会识别成空值。 在通过*和1进行聚合计算的时候,所有的行都会计入,而聚合某个字段时,空值不会被计算。如count(*) = count(1) > coun 阅读全文
posted @ 2022-09-22 10:39 Avery_rainys 阅读(166) 评论(0) 推荐(0) 编辑
摘要:SQL常说用小表驱动大表,网上很多帖子也是说hive也是小表驱动大表。 但实际用expalin执行计划测的时候,Left Join大表写在前面时执行了MapJoin,小表写前面反而没采用MapJoin,为了确定确实是表大小的顺序原因,我更改了set hive.mapjoin.smalltable.f 阅读全文
posted @ 2022-09-21 09:03 Avery_rainys 阅读(477) 评论(0) 推荐(0) 编辑
摘要:兼容性,有向上兼容和向下兼容的差别。 新版本能够支持旧版本就是向下兼容。新版本有些时候可以向下兼容,但是很多时候也需要放弃旧代码的,这个时候旧的客户端就需要找到能够兼容他的老版dll。也就是产生了分支版本。 第二,向上兼容是旧版本能够兼容新版本。如果向下向上都兼容,那就是完全的兼容,就没有必要产生分 阅读全文
posted @ 2022-09-10 17:08 Avery_rainys 阅读(203) 评论(0) 推荐(0) 编辑
摘要:一、简介 Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。 流处理平台有以下3个特性: 可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。 可以储存流式的记录,并且有较好的容错性。 可以在流式记录产生时就进 阅读全文
posted @ 2022-09-08 19:57 Avery_rainys 阅读(68) 评论(0) 推荐(0) 编辑
摘要:一、概述 我们先来回顾一下事务的概念:要么全部成功,要么全部失败! Kafka 事务也是一样的。 Kafka 0.11.0.0 后,引入了重大特性——幂等性与事务。为什么讲事务还有 Q 一下幂等性呢?因为事务实际上就是基于幂等性实现的,因此,了解事务是如何工作之前我们还得了解幂等性是如何工作的。 本 阅读全文
posted @ 2022-09-08 17:10 Avery_rainys 阅读(200) 评论(0) 推荐(0) 编辑
摘要:Kafka有两个很重要的配置参数,acks与min.insync.replicas.其中acks是producer的配置参数,min.insync.replicas是Broker端的配置参数,这两个参数对于生产者不丢失数据起到了很大的作用.接下来,本文会以图示的方式讲解这两个参数的含义和使用方式。通 阅读全文
posted @ 2022-09-08 16:33 Avery_rainys 阅读(653) 评论(0) 推荐(1) 编辑
摘要:Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下, 阅读全文
posted @ 2022-09-04 00:24 Avery_rainys 阅读(94) 评论(0) 推荐(0) 编辑
摘要:Spark任务调度机制论述 在生产环境下,Spark集群的部署方式一般为YARN-Cluster模式。 Driver线程主要是初始化SparkContext对象,准备运行所需的上下文,然后一方面保持与ApplicationMaster的RPC连接,通过ApplicationMaster申请资源,另一 阅读全文
posted @ 2022-09-03 16:35 Avery_rainys 阅读(371) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示