数据中台解析Hive SQL过程

一、数据中台解析SQL的目的:

数据中台需要对外提供数据特征查询的能力,因此中台查找并解析各个平台的sql,找出哪些表中的字段经常被使用,以便沉淀为特征,而我们要做的是找出sql中的数据表及其字段。以海象平台调度任务中的Hive SQL为例,看一下处理一个hive SQL都需要做什么。

二、预处理:

一个sql中会包含很多与查询操作不相关的语句:

1. 注释,包括--和#两种注释;

2. add jar;

3. alter table;

4. create temporary function,定义临时函数;

5 海象中的系统参数;

在预处理阶段,我们通过正则表达式把这些字段全部过滤掉。

三、CTE语法:

hive sql中会经常出现形如with as的CTE表达式,在解析SQL时可能对我们有影响,因此需要把CTE中临时创建的表给屏蔽掉。

抽象语法树:

<dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>2.2.0</version>
 </dependency>

hive中有解析sql模块的,我们直接引入jar包调用就好。

四、访问者模式

对于解析SQL来说,访问者模式最大的特点是遍历语法树和解析语法树节点操作分析,符合面向对象中的开闭原则。

如何处理SQL中的子查询?

将QueryNode分割,使得每一个QueryNode下都没有其他的QueryNode。

如何找到字段和表名间的联系?

依靠表别名。

 

posted on 2019-03-18 21:39  于敬晖  阅读(1011)  评论(0编辑  收藏  举报

导航