hive - 随笔分类 - Kotlin

hive 参数优化

摘要：最近为了调试hive试了很多hive参数，对于hive任务优化，减少使用内存有一些自己的见解，在此做一个记录。一：mapreduce的基本流程及阶段可进行的优化操作（其实有很多不用设置有默认的设置，此处做面试，参考设置在下一节）附上网上的一张老图（虽然老但是很具有代表性，哈哈哈）上面的图知道阅读全文

posted @ 2022-08-26 18:58 Kotlin 阅读(490) 评论(0) 推荐(0) 编辑

hive 函数大全

摘要：show functions 查看了所有的方法把所有的方法记录下来，下次免得去翻别人的博客了数学函数数学常规函数函数简介用法 abs 绝对值 select abs(-13);13 negative 正数转负数,负数转正数 select negative(-4);4 select negativ 阅读全文

posted @ 2022-08-14 16:15 Kotlin 阅读(1864) 评论(0) 推荐(0) 编辑

hive源码（八）源码总结

摘要：hive源码观后总结整体流程 1.进入程序，利用Antlr框架定义的预发规则，对HQL完成语法解析，将HQL转换为AST（抽象语法树） 2.遍历AST，抽象出查询的基本构成单元QueryBlock（查询块），可以理解为最小查询执行单元 3.遍历QueryBlock，将它转换为OperatorTr 阅读全文

posted @ 2022-08-11 16:03 Kotlin 阅读(271) 评论(0) 推荐(0) 编辑

hive源码（七）物理执行计划提交执行

摘要：hive源码（七）物理执行计划提交执行上面所有的方法执行完成就退出了，往后继续执行org.apache.hadoop.hive.ql.Driver runInternal 方法里面有一个 execute()这个方法就是把物理执行计划提交执行的入口 execute()方法 private void 阅读全文

posted @ 2022-08-11 10:33 Kotlin 阅读(250) 评论(0) 推荐(0) 编辑

hive源码（六）OperatorTree转换为物理执行计划，物理执行计划优化

摘要：OperatorTree转换为物理执行计划，物理执行计划优化代码入口 TaskCompiler compiler = TaskCompilerFactory.getCompiler(conf, pCtx); compiler.init(queryState, console, db); //代码入阅读全文

posted @ 2022-08-09 22:39 Kotlin 阅读(272) 评论(0) 推荐(0) 编辑

hive源码（五）OperatorTree优化

摘要：OperatorTree优化（逻辑执行计划优化）优化入口 Optimizer optm = new Optimizer(); optm.setPctx(pCtx); optm.initialize(conf); //优化器都会执行实现这个方法，通过这调用执行优化过程 //类 org.apache. 阅读全文

posted @ 2022-08-09 08:48 Kotlin 阅读(454) 评论(0) 推荐(0) 编辑

hive源码（四）前三篇总结

摘要：第一篇基本上都是一些异常处理、常用方式处理。第二篇基本上钩子函数处理比较多，重点就是把SQL转成了AST标准语法树第三篇目前来说有几点：AST转QB、QB转Operators Operators优化相关的debug了一下，但是感觉前面的还是有点不熟悉，就先暂停回顾一下第一篇的总结 org.ap 阅读全文

posted @ 2022-07-30 22:17 Kotlin 阅读(181) 评论(0) 推荐(0) 编辑

hive源码（三）AST->QB->OperatorTree

摘要：这一篇先把流程走通，后面会接着写里面的详细步骤 org.apache.hadoop.hive.ql.parse.SemanticAnalyzer analyzeInternal方法 public void analyzeInternal(ASTNode ast) throws SemanticExc 阅读全文

posted @ 2022-07-26 09:08 Kotlin 阅读(305) 评论(0) 推荐(0) 编辑

hive源码（二）输出日志、hook处理 Driver类

摘要：一：org.apache.hadoop.hive.ql.Driver 类流程部分方法实体较长、可以直接搜素《《很重要》》关键字，直接看重要代码 CommandProcessorResponse方法 //重载方法，继续掉用 return run(command, false); CommandPr 阅读全文

posted @ 2022-06-30 19:27 Kotlin 阅读(365) 评论(0) 推荐(0) 编辑

hive源码（一）入口类CliDriver

摘要：源码下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.3/apache-hive-3.1.3-src.tar.gz 一：org.apache.hadoop.hive.cli.CliDriver 类流程 CliDriver 是阅读全文

posted @ 2022-06-30 15:05 Kotlin 阅读(718) 评论(0) 推荐(0) 编辑

Hive(五)索引、视图、定时器

摘要：最近看了一遍hive的文档，本文是为了记录文档中将来会可用东西，并非最全的《文档》，望谅解一：索引索引适用于大多数索引情况： create index table01_index on table table01 (column2) as 'org.apache.hadoop.hive.ql. 阅读全文

posted @ 2022-03-13 22:51 Kotlin 阅读(223) 评论(0) 推荐(0) 编辑

Hive(一)命令行参数、变量、虚拟列、配置

摘要：最近看了一遍hive的文档，本文是为了记录文档中将来会可用东西，并非最全的《文档》，望谅解一：Hive 常用命令、命令行参数、变量我们在使用hive过程中一般是 hive命令直接起来一个客户端，然后输入命令进行操作。但是hive本身是有很多可选命令以及参数可以配置的，如下：命令含义 exi 阅读全文

posted @ 2022-03-13 12:45 Kotlin 阅读(511) 评论(0) 推荐(0) 编辑

Hive(三)分组、聚合、排序、窗口函数

摘要：最近看了一遍hive的文档，本文是为了记录文档中将来会可用东西，并非最全的《文档》，望谅解一：建表语句 drop table window_test; create external table if not exists window_test ( name string, score stri 阅读全文

posted @ 2019-12-31 23:33 Kotlin 阅读(945) 评论(0) 推荐(0) 编辑

Hive存储格式textfile、sequencefile、avro、parquet、rcfile、orc 对比

摘要：本文目的是hive的文件格式的生成数据时间和文件存储大小查询时间的对比。生成数据使用的都是hivesql 及配置选项，该选项暂不都适用于spark。一：建表语句 1.简单介绍原始文件描述：原始文件未压缩：69G 记录数：11.8亿文件数：100Hive引擎：tez。资源限制：输入文件大小确定，阅读全文

posted @ 2019-11-06 22:48 Kotlin 阅读(10638) 评论(0) 推荐(1) 编辑

Hive(二)常用操作，常用函数

摘要：最近看了一遍hive的文档，本文是为了记录文档中将来会可用东西，并非最全的《文档》，望谅解一：Hive常用操作 1.表信息 analyze table trandw.dwd_log_app_open_detail_di partition(dt='20220220') compute statis 阅读全文

posted @ 2019-10-13 12:42 Kotlin 阅读(607) 评论(0) 推荐(0) 编辑

Hive(四)倾斜表、桶表、表约束、字段检查

摘要：最近看了一遍hive的文档，本文是为了记录文档中将来会可用东西，并非最全的《文档》，望谅解一：hive表 1.倾斜表倾斜表其实就是将数据按照固定值，重新划分文件。（默认是按照keyhash值划分文件） create table if not exists table_test ( aa stri 阅读全文

posted @ 2019-09-22 17:24 Kotlin 阅读(807) 评论(0) 推荐(0) 编辑

Kotlin

随笔分类 - hive

公告

最新随笔

随笔分类

随笔档案