随笔分类 -  SQL

摘要:SQL-Structured Query Language 语言简洁,易学易用 DDL:Create、Drop、Alter DML:ISUD(Insert、Select、Update、Delete) 权限 Grant、Revoke 场景 olap(Analysis) oltp(Transaction 阅读全文
posted @ 2022-05-31 17:22 匠人先生 阅读(136) 评论(0) 推荐(0) 编辑
摘要:impala在一个select中执行多个count distinct时会报错,比如执行 select key, count(distinct column_a), count(distinct column_b) from test_table group by key 会报错 Query subm 阅读全文
posted @ 2019-09-28 01:13 匠人先生 阅读(4969) 评论(0) 推荐(0) 编辑
摘要:spark中join有两种,一种是RDD的join,一种是sql中的join,分别来看: 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit 阅读全文
posted @ 2019-01-09 17:42 匠人先生 阅读(3414) 评论(0) 推荐(2) 编辑
摘要:spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行insert overwrite table流程: 1 创建临时目录,比如 .hive-staging_hiv 阅读全文
posted @ 2019-01-09 15:05 匠人先生 阅读(2388) 评论(0) 推荐(1) 编辑
摘要:Hive SQL解析过程 SQL->AST(Abstract Syntax Tree)->Task(MapRedTask,FetchTask)->QueryPlan(Task集合)->Job(Yarn) SQL解析会在两个地方进行: 一个是SQL执行前compile,具体在Driver.compil 阅读全文
posted @ 2018-12-27 18:41 匠人先生 阅读(3711) 评论(0) 推荐(0) 编辑
摘要:之前讨论过hive中limit的实现,详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现,首先看执行计划: spark-sql> explain select * from test1 limit 10 阅读全文
posted @ 2018-12-21 14:36 匠人先生 阅读(3577) 评论(0) 推荐(0) 编辑
摘要:最近把一些sql执行从hive改到spark,发现执行更慢,sql主要是一些insert overwrite操作,从执行计划看到,用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select * from t 阅读全文
posted @ 2018-12-21 11:45 匠人先生 阅读(8490) 评论(1) 推荐(1) 编辑

点击右上角即可分享
微信分享提示