随笔分类 -  hive

摘要:最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:mapreduce的基本流程及阶段可进行的优化操作 (其实有很多不用设置有默认的设置,此处做面试,参考设置在下一节) 附上网上的一张老图(虽然老但是很具有代表性,哈哈哈) 上面的图知道 阅读全文
posted @ 2022-08-26 18:58 Kotlin 阅读(490) 评论(0) 推荐(0) 编辑
摘要:show functions 查看了所有的方法把所有的方法记录下来,下次免得去翻别人的博客了 数学函数 数学常规函数 函数简介用法 abs 绝对值 select abs(-13);13 negative 正数转负数,负数转正数 select negative(-4);4 select negativ 阅读全文
posted @ 2022-08-14 16:15 Kotlin 阅读(1864) 评论(0) 推荐(0) 编辑
摘要:hive源码 观后总结 整体流程 1.进入程序,利用Antlr框架定义的预发规则,对HQL完成语法解析,将HQL转换为AST(抽象语法树) 2.遍历AST,抽象出查询的基本构成单元QueryBlock(查询块),可以理解为最小查询执行单元 3.遍历QueryBlock,将它转换为OperatorTr 阅读全文
posted @ 2022-08-11 16:03 Kotlin 阅读(271) 评论(0) 推荐(0) 编辑
摘要:hive源码(七)物理执行计划 提交执行 上面所有的方法执行完成就退出了,往后继续执行org.apache.hadoop.hive.ql.Driver runInternal 方法里面有一个 execute()这个方法就是把物理执行计划提交执行的入口 execute()方法 private void 阅读全文
posted @ 2022-08-11 10:33 Kotlin 阅读(250) 评论(0) 推荐(0) 编辑
摘要:OperatorTree转换为物理执行计划,物理执行计划优化 代码入口 TaskCompiler compiler = TaskCompilerFactory.getCompiler(conf, pCtx); compiler.init(queryState, console, db); //代码入 阅读全文
posted @ 2022-08-09 22:39 Kotlin 阅读(272) 评论(0) 推荐(0) 编辑
摘要:OperatorTree优化(逻辑执行计划优化) 优化入口 Optimizer optm = new Optimizer(); optm.setPctx(pCtx); optm.initialize(conf); //优化器都会执行实现这个方法,通过这调用执行优化过程 //类 org.apache. 阅读全文
posted @ 2022-08-09 08:48 Kotlin 阅读(454) 评论(0) 推荐(0) 编辑
摘要:第一篇基本上都是一些异常处理、常用方式处理。 第二篇基本上钩子函数处理比较多,重点就是把SQL转成了AST标准语法树 第三篇目前来说有几点:AST转QB、QB转Operators Operators优化相关的debug了一下,但是感觉前面的还是有点不熟悉,就先暂停回顾一下 第一篇的总结 org.ap 阅读全文
posted @ 2022-07-30 22:17 Kotlin 阅读(181) 评论(0) 推荐(0) 编辑
摘要:这一篇先把流程走通,后面会接着写里面的详细步骤 org.apache.hadoop.hive.ql.parse.SemanticAnalyzer analyzeInternal方法 public void analyzeInternal(ASTNode ast) throws SemanticExc 阅读全文
posted @ 2022-07-26 09:08 Kotlin 阅读(305) 评论(0) 推荐(0) 编辑
摘要:一:org.apache.hadoop.hive.ql.Driver 类流程 部分方法实体较长、可以直接搜素《《很重要》》 关键字,直接看重要代码 CommandProcessorResponse方法 //重载方法,继续掉用 return run(command, false); CommandPr 阅读全文
posted @ 2022-06-30 19:27 Kotlin 阅读(365) 评论(0) 推荐(0) 编辑
摘要:源码下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.3/apache-hive-3.1.3-src.tar.gz 一:org.apache.hadoop.hive.cli.CliDriver 类流程 CliDriver 是 阅读全文
posted @ 2022-06-30 15:05 Kotlin 阅读(718) 评论(0) 推荐(0) 编辑
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:索引 索引 适用于大多数索引情况: create index table01_index on table table01 (column2) as 'org.apache.hadoop.hive.ql. 阅读全文
posted @ 2022-03-13 22:51 Kotlin 阅读(223) 评论(0) 推荐(0) 编辑
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:Hive 常用命令、命令行参数、变量 我们在使用hive过程中一般是 hive命令直接起来一个客户端,然后输入命令进行操作。 但是hive本身是有很多可选命令以及参数可以配置的,如下: 命令 含义 exi 阅读全文
posted @ 2022-03-13 12:45 Kotlin 阅读(511) 评论(0) 推荐(0) 编辑
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:建表语句 drop table window_test; create external table if not exists window_test ( name string, score stri 阅读全文
posted @ 2019-12-31 23:33 Kotlin 阅读(945) 评论(0) 推荐(0) 编辑
摘要:本文目的是hive的文件格式的生成数据时间和文件存储大小查询时间的对比。生成数据使用的都是hivesql 及配置选项,该选项暂不都适用于spark。 一:建表语句 1.简单介绍 原始文件描述:原始文件未压缩:69G 记录数:11.8亿 文件数:100Hive引擎:tez。资源限制:输入文件大小确定, 阅读全文
posted @ 2019-11-06 22:48 Kotlin 阅读(10638) 评论(0) 推荐(1) 编辑
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:Hive常用操作 1.表信息 analyze table trandw.dwd_log_app_open_detail_di partition(dt='20220220') compute statis 阅读全文
posted @ 2019-10-13 12:42 Kotlin 阅读(607) 评论(0) 推荐(0) 编辑
摘要:最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:hive表 1.倾斜表 倾斜表其实就是将数据按照固定值,重新划分文件。(默认是按照keyhash值划分文件) create table if not exists table_test ( aa stri 阅读全文
posted @ 2019-09-22 17:24 Kotlin 阅读(807) 评论(0) 推荐(0) 编辑

Live2D
点击右上角即可分享
微信分享提示