摘要: 这种只含map的操作,如果文件大小控制在合适的情况下,都将只有本地操作,其执行非常高效,运行效率完全不输于在计算引擎Tez和Spark上运行。 阅读全文
posted @ 2023-06-13 17:26 鲁边 阅读(310) 评论(0) 推荐(0) 编辑
摘要: Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。 阅读全文
posted @ 2023-06-09 20:14 鲁边 阅读(796) 评论(2) 推荐(1) 编辑
摘要: 如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系? 阅读全文
posted @ 2023-06-07 20:43 鲁边 阅读(431) 评论(2) 推荐(0) 编辑
摘要: 如果说Hive优化是一堵技术路上的高墙,那么关于Hive执行计划,就是爬上这堵高墙的一架梯子。 阅读全文
posted @ 2023-06-06 19:55 鲁边 阅读(1158) 评论(0) 推荐(0) 编辑
摘要: HiveSql调优系列之Hive严格模式,如何合理使用Hive严格模式 所谓Hive的严格模式,就是为了避免用户提交一些恶意SQL,消耗大量资源进而使得运行环境崩溃做出的一些安全性的限制。 阅读全文
posted @ 2022-09-02 18:51 鲁边 阅读(2045) 评论(0) 推荐(0) 编辑
摘要: ORC文件是以二进制的方式存储的,不可以直接读取,但由于ORC的自描述特性,其读写不依赖于 Hive Metastore 或任何其他外部元数据。本身存储了文件数据、数据类型及编码信息。因为文件是自包含的,所以读取ORC文件数据无需考虑用户使用环境。 阅读全文
posted @ 2022-08-25 09:56 鲁边 阅读(1959) 评论(0) 推荐(1) 编辑
摘要: 今天有个小伙伴问我,什么是谓词下推,然后我就开启巴拉巴拉模式,说了好长一段时间,结果发现他还是懵的。 最后我概述给他一句话:所谓谓词下推,就是将尽可能多的判断更贴近数据源,以使查询时能跳过无关的数据。用在SQL优化上来说,就是先过滤再做聚合等操作。 看到这里的朋友可能就已经明白了什么是谓词下推,如果 阅读全文
posted @ 2022-08-16 01:39 鲁边 阅读(3572) 评论(0) 推荐(0) 编辑
摘要: 我在整理Hive的存储格式和压缩格式,本来打算一篇发出来,结果其中一小节就有很多内容,于是打算写成Hive存储格式和压缩格式系列。 本节主要讲一下Hive存储格式最早的典型的列式存储格式RCFile。 综述 RCFile(Record Columnar File)文件格式是FaceBook开源的一种 阅读全文
posted @ 2022-08-14 20:05 鲁边 阅读(1343) 评论(0) 推荐(0) 编辑
摘要: 什么是hive的静态分区和动态分区,它们又有什么区别呢?hive动态分区详解 关于hive的静态分区和动态分区怎么用,又有什么区别呢, hive动态分区详解 阅读全文
posted @ 2022-08-07 18:05 鲁边 阅读(2055) 评论(0) 推荐(0) 编辑
摘要: ​ 文末查看关键字,回复赠书 一、理论基础 1.Hive分区背景 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2.Hive分区实质 因为Hive实际是存储在HDFS上的抽象,Hive 阅读全文
posted @ 2022-08-02 17:59 鲁边 阅读(728) 评论(0) 推荐(0) 编辑