利用hive源码解析sql查了哪些表哪些字段
在hiveserver2中使用了org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer
对抽象语法树(AST)进行语义分析,分析的过程可以得出hive查询的表及其字段
于是我利用相关的类去做测试:
package com.baidu.waimai;
import org.apache.hadoop.hive.conf.HiveConf;
import org.apache.hadoop.hive.ql.Context;
import org.apache.hadoop.hive.ql.parse.*;
import org.apache.hadoop.hive.ql.session.SessionState;
public class TestHiveParser {
public static void main(String[] args) throws Throwable {
// String sql = "select * from (select name from test.test1 where id = 1) a";
String sql = "select * from test.test1";
HiveConf hiveConf = new HiveConf();
hiveConf.set("hive.stats.collect.tablekeys", "true");
hiveConf.set("hive.stats.collect.scancols", "true");
SessionState sessionState = SessionState.start(hiveConf);
sessionState.initTxnMgr(hiveConf);
SessionState.setCurrentSessionState(sessionState);
Context ctx = new Context(hiveConf);
ctx.setTryCount(Integer.MAX_VALUE);
ctx.setCmd(sql);
ctx.setHDFSCleanup(true);
ParseDriver pd = new ParseDriver();
ASTNode tree = pd.parse(sql);
tree = ParseUtils.findRootNonNullToken(tree);
System.out.println(tree);
BaseSemanticAnalyzer baseSemanticAnalyzer = SemanticAnalyzerFactory.get(hiveConf, tree);
System.out.println(baseSemanticAnalyzer);
baseSemanticAnalyzer.analyze(tree, ctx);
TableAccessInfo tableAccessInfo = baseSemanticAnalyzer.getTableAccessInfo();
System.out.println(tableAccessInfo);
ColumnAccessInfo columnAccessInfo = baseSemanticAnalyzer.getColumnAccessInfo();
System.out.println(columnAccessInfo);
sessionState.close();
ctx.clear();
}
}
最后可以根据columnAccessInfo去得到查询的表及其字段。
但这么做不太满足我们的需求,比如说下面这句sql,我想要的结果是查询了test.test1表的name字段,但是它连id字段也拿出来了。
select * from (select name from test.test1 where id = 1) a
先记录一下,之后如果找到源码有解决方法的话再更新