摘要:
这种只含map的操作,如果文件大小控制在合适的情况下,都将只有本地操作,其执行非常高效,运行效率完全不输于在计算引擎Tez和Spark上运行。 阅读全文
摘要:
Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。 阅读全文
摘要:
如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系? 阅读全文
摘要:
如果说Hive优化是一堵技术路上的高墙,那么关于Hive执行计划,就是爬上这堵高墙的一架梯子。 阅读全文
摘要:
所谓Hive的严格模式,就是为了避免用户提交一些恶意SQL,消耗大量资源进而使得运行环境崩溃做出的一些安全性的限制。 阅读全文
摘要:
ORC文件是以二进制的方式存储的,不可以直接读取,但由于ORC的自描述特性,其读写不依赖于 Hive Metastore 或任何其他外部元数据。本身存储了文件数据、数据类型及编码信息。因为文件是自包含的,所以读取ORC文件数据无需考虑用户使用环境。 阅读全文
摘要:
今天有个小伙伴问我,什么是谓词下推,然后我就开启巴拉巴拉模式,说了好长一段时间,结果发现他还是懵的。 最后我概述给他一句话:所谓谓词下推,就是将尽可能多的判断更贴近数据源,以使查询时能跳过无关的数据。用在SQL优化上来说,就是先过滤再做聚合等操作。 看到这里的朋友可能就已经明白了什么是谓词下推,如果 阅读全文
摘要:
我在整理Hive的存储格式和压缩格式,本来打算一篇发出来,结果其中一小节就有很多内容,于是打算写成Hive存储格式和压缩格式系列。 本节主要讲一下Hive存储格式最早的典型的列式存储格式RCFile。 综述 RCFile(Record Columnar File)文件格式是FaceBook开源的一种 阅读全文
摘要:
关于hive的静态分区和动态分区怎么用,又有什么区别呢,
hive动态分区详解 阅读全文
摘要:
文末查看关键字,回复赠书 一、理论基础 1.Hive分区背景 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2.Hive分区实质 因为Hive实际是存储在HDFS上的抽象,Hive 阅读全文