随笔分类 - hive
摘要:最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:mapreduce的基本流程及阶段可进行的优化操作 (其实有很多不用设置有默认的设置,此处做面试,参考设置在下一节) 附上网上的一张老图(虽然老但是很具有代表性,哈哈哈) 上面的图知道
阅读全文
摘要:show functions 查看了所有的方法把所有的方法记录下来,下次免得去翻别人的博客了 数学函数 数学常规函数 函数简介用法 abs 绝对值 select abs(-13);13 negative 正数转负数,负数转正数 select negative(-4);4 select negativ
阅读全文
摘要:hive源码 观后总结 整体流程 1.进入程序,利用Antlr框架定义的预发规则,对HQL完成语法解析,将HQL转换为AST(抽象语法树) 2.遍历AST,抽象出查询的基本构成单元QueryBlock(查询块),可以理解为最小查询执行单元 3.遍历QueryBlock,将它转换为OperatorTr
阅读全文
摘要:hive源码(七)物理执行计划 提交执行 上面所有的方法执行完成就退出了,往后继续执行org.apache.hadoop.hive.ql.Driver runInternal 方法里面有一个 execute()这个方法就是把物理执行计划提交执行的入口 execute()方法 private void
阅读全文
摘要:OperatorTree转换为物理执行计划,物理执行计划优化 代码入口 TaskCompiler compiler = TaskCompilerFactory.getCompiler(conf, pCtx); compiler.init(queryState, console, db); //代码入
阅读全文
摘要:OperatorTree优化(逻辑执行计划优化) 优化入口 Optimizer optm = new Optimizer(); optm.setPctx(pCtx); optm.initialize(conf); //优化器都会执行实现这个方法,通过这调用执行优化过程 //类 org.apache.
阅读全文
摘要:第一篇基本上都是一些异常处理、常用方式处理。 第二篇基本上钩子函数处理比较多,重点就是把SQL转成了AST标准语法树 第三篇目前来说有几点:AST转QB、QB转Operators Operators优化相关的debug了一下,但是感觉前面的还是有点不熟悉,就先暂停回顾一下 第一篇的总结 org.ap
阅读全文
摘要:这一篇先把流程走通,后面会接着写里面的详细步骤 org.apache.hadoop.hive.ql.parse.SemanticAnalyzer analyzeInternal方法 public void analyzeInternal(ASTNode ast) throws SemanticExc
阅读全文
摘要:一:org.apache.hadoop.hive.ql.Driver 类流程 部分方法实体较长、可以直接搜素《《很重要》》 关键字,直接看重要代码 CommandProcessorResponse方法 //重载方法,继续掉用 return run(command, false); CommandPr
阅读全文
摘要:源码下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.3/apache-hive-3.1.3-src.tar.gz 一:org.apache.hadoop.hive.cli.CliDriver 类流程 CliDriver 是
阅读全文
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:索引 索引 适用于大多数索引情况: create index table01_index on table table01 (column2) as 'org.apache.hadoop.hive.ql.
阅读全文
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:Hive 常用命令、命令行参数、变量 我们在使用hive过程中一般是 hive命令直接起来一个客户端,然后输入命令进行操作。 但是hive本身是有很多可选命令以及参数可以配置的,如下: 命令 含义 exi
阅读全文
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:建表语句 drop table window_test; create external table if not exists window_test ( name string, score stri
阅读全文
摘要:本文目的是hive的文件格式的生成数据时间和文件存储大小查询时间的对比。生成数据使用的都是hivesql 及配置选项,该选项暂不都适用于spark。 一:建表语句 1.简单介绍 原始文件描述:原始文件未压缩:69G 记录数:11.8亿 文件数:100Hive引擎:tez。资源限制:输入文件大小确定,
阅读全文
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:Hive常用操作 1.表信息 analyze table trandw.dwd_log_app_open_detail_di partition(dt='20220220') compute statis
阅读全文
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:hive表 1.倾斜表 倾斜表其实就是将数据按照固定值,重新划分文件。(默认是按照keyhash值划分文件) create table if not exists table_test ( aa stri
阅读全文