数据中台解析Hive SQL过程

一、数据中台解析SQL的目的：

数据中台需要对外提供数据特征查询的能力，因此中台查找并解析各个平台的sql，找出哪些表中的字段经常被使用，以便沉淀为特征，而我们要做的是找出sql中的数据表及其字段。以海象平台调度任务中的Hive SQL为例，看一下处理一个hive SQL都需要做什么。

二、预处理：

一个sql中会包含很多与查询操作不相关的语句：

1. 注释，包括--和#两种注释；

2. add jar;

3. alter table;

4. create temporary function，定义临时函数;

5 海象中的系统参数;

在预处理阶段，我们通过正则表达式把这些字段全部过滤掉。

三、CTE语法：

hive sql中会经常出现形如with as的CTE表达式，在解析SQL时可能对我们有影响，因此需要把CTE中临时创建的表给屏蔽掉。

抽象语法树：

<dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>2.2.0</version>
 </dependency>

hive中有解析sql模块的，我们直接引入jar包调用就好。

四、访问者模式：

对于解析SQL来说，访问者模式最大的特点是遍历语法树和解析语法树节点操作分析，符合面向对象中的开闭原则。

如何处理SQL中的子查询？

将QueryNode分割，使得每一个QueryNode下都没有其他的QueryNode。

如何找到字段和表名间的联系？

依靠表别名。

posted on 2019-03-18 21:39 于敬晖阅读(1045) 评论(0) 收藏举报

刷新页面返回顶部

数据中台解析Hive SQL过程

导航

公告