上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
摘要: 第一篇基本上都是一些异常处理、常用方式处理。 第二篇基本上钩子函数处理比较多,重点就是把SQL转成了AST标准语法树 第三篇目前来说有几点:AST转QB、QB转Operators Operators优化相关的debug了一下,但是感觉前面的还是有点不熟悉,就先暂停回顾一下 第一篇的总结 org.ap 阅读全文
posted @ 2022-07-30 22:17 Kotlin 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 这一篇先把流程走通,后面会接着写里面的详细步骤 org.apache.hadoop.hive.ql.parse.SemanticAnalyzer analyzeInternal方法 public void analyzeInternal(ASTNode ast) throws SemanticExc 阅读全文
posted @ 2022-07-26 09:08 Kotlin 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 经常会有这样的需求:在现有数仓表的基础上,写一些sql,然后生成hive表并同步到mysql。 次数多了,就像写一个工具完成这个工作 一:背景、功能、流程介绍 1.背景: 1.数仓使用hive存储,datax导数据、airflow调度 2.不知道怎么利用hive解析sql,拿到对应的schema,但 阅读全文
posted @ 2022-07-10 00:11 Kotlin 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具) 一:背景、功能、流程介绍 1.背景: 1.数仓使用hive存储,datax导数据、airflow调度 2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了 还需要自己手动 阅读全文
posted @ 2022-07-09 23:04 Kotlin 阅读(632) 评论(0) 推荐(0) 编辑
摘要: 一:org.apache.hadoop.hive.ql.Driver 类流程 部分方法实体较长、可以直接搜素《《很重要》》 关键字,直接看重要代码 CommandProcessorResponse方法 //重载方法,继续掉用 return run(command, false); CommandPr 阅读全文
posted @ 2022-06-30 19:27 Kotlin 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 源码下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.3/apache-hive-3.1.3-src.tar.gz 一:org.apache.hadoop.hive.cli.CliDriver 类流程 CliDriver 是 阅读全文
posted @ 2022-06-30 15:05 Kotlin 阅读(650) 评论(0) 推荐(0) 编辑
摘要: 本文章持续记录工作中遇到的SQL的问题,持续更新中…… SQL常见问题 一、full join导致数据量翻倍 原因:空值会导致数据重复 错误SQL: select coalesce(a.user_id,b.user_id,c.user_id,d.user_id,e.user_id,f.user_id 阅读全文
posted @ 2022-06-30 11:27 Kotlin 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 网站:http://md.aclickall.com/#hmd2all >关注可了解更多的教程及排版技巧。问题或建议,请公众号留言; ###代码块显示效果注:markdown对代码块的语法是开始和结束行都要添加:\`\`\`,其中 \` 为windows键盘左上角那个,如下: ```public c 阅读全文
posted @ 2022-06-25 14:06 Kotlin 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 一:DQC核心流程 Define:数据质检规则(指标)的定义。 你要告警给谁,你要使用什么方式告警(邮件,即时消息),你的规则是什么(空值,波动)等 Measure:数据质检任务的执行 数据在哪存储:hive、mysql是基本的数据库、CK、kylin等 Analyze:数据质检结果量化及可视化展示 阅读全文
posted @ 2022-05-23 20:56 Kotlin 阅读(1921) 评论(0) 推荐(0) 编辑
摘要: 一:di表、ds表 di表多用于事实表,例如:从数据库抽取的交易记录表,购买详单表等 实现逻辑较为简单,一般直接ETL即可。 ds表一般就是简单汇聚,例如:用户每天使用的pkg的数量表,一般直接group by 就行。 二:dd表,全量表 dd表多用于记录每日的全量状态表例如:用户账号密码表、用户通 阅读全文
posted @ 2022-05-05 13:15 Kotlin 阅读(585) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
Live2D