随笔分类 - SQL
摘要:SQL-Structured Query Language 语言简洁,易学易用 DDL:Create、Drop、Alter DML:ISUD(Insert、Select、Update、Delete) 权限 Grant、Revoke 场景 olap(Analysis) oltp(Transaction
阅读全文
摘要:impala在一个select中执行多个count distinct时会报错,比如执行 select key, count(distinct column_a), count(distinct column_b) from test_table group by key 会报错 Query subm
阅读全文
摘要:spark中join有两种,一种是RDD的join,一种是sql中的join,分别来看: 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit
阅读全文
摘要:spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行insert overwrite table流程: 1 创建临时目录,比如 .hive-staging_hiv
阅读全文
摘要:Hive SQL解析过程 SQL->AST(Abstract Syntax Tree)->Task(MapRedTask,FetchTask)->QueryPlan(Task集合)->Job(Yarn) SQL解析会在两个地方进行: 一个是SQL执行前compile,具体在Driver.compil
阅读全文
摘要:之前讨论过hive中limit的实现,详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现,首先看执行计划: spark-sql> explain select * from test1 limit 10
阅读全文
摘要:最近把一些sql执行从hive改到spark,发现执行更慢,sql主要是一些insert overwrite操作,从执行计划看到,用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select * from t
阅读全文