SQL - 随笔分类 - 匠人先生

SQL与Database

摘要：SQL-Structured Query Language 语言简洁，易学易用 DDL：Create、Drop、Alter DML：ISUD（Insert、Select、Update、Delete）权限 Grant、Revoke 场景 olap（Analysis） oltp（Transaction 阅读全文

posted @ 2022-05-31 17:22 匠人先生阅读(150) 评论(0) 推荐(0)

大叔经验分享（83）impala执行多个select distinct

摘要：impala在一个select中执行多个count distinct时会报错，比如执行 select key, count(distinct column_a), count(distinct column_b) from test_table group by key 会报错 Query subm 阅读全文

posted @ 2019-09-28 01:13 匠人先生阅读(5033) 评论(0) 推荐(0)

大数据基础之Spark（8）Spark中Join实现原理

摘要：spark中join有两种，一种是RDD的join，一种是sql中的join，分别来看： 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit 阅读全文

posted @ 2019-01-09 17:42 匠人先生阅读(3454) 评论(0) 推荐(2)

大叔经验分享（23）spark sql插入表时的文件个数研究

摘要：spark sql执行insert overwrite table时，写到新表或者新分区的文件个数，有可能是200个，也有可能是任意个，为什么会有这种差别？首先看一下spark sql执行insert overwrite table流程： 1 创建临时目录，比如 .hive-staging_hiv 阅读全文

posted @ 2019-01-09 15:05 匠人先生阅读(2436) 评论(0) 推荐(1)

大数据基础之Hive（2）Hive SQL执行过程之SQL解析过程

摘要：Hive SQL解析过程 SQL->AST(Abstract Syntax Tree)->Task（MapRedTask，FetchTask）->QueryPlan（Task集合）->Job（Yarn） SQL解析会在两个地方进行：一个是SQL执行前compile，具体在Driver.compil 阅读全文

posted @ 2018-12-27 18:41 匠人先生阅读(3805) 评论(0) 推荐(0)

大叔经验分享（15）spark sql limit实现原理

摘要：之前讨论过hive中limit的实现，详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现，首先看执行计划： spark-sql> explain select * from test1 limit 10 阅读全文

posted @ 2018-12-21 14:36 匠人先生阅读(3647) 评论(0) 推荐(0)

大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢

摘要：最近把一些sql执行从hive改到spark，发现执行更慢，sql主要是一些insert overwrite操作，从执行计划看到，用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select * from t 阅读全文

posted @ 2018-12-21 11:45 匠人先生阅读(8615) 评论(1) 推荐(1)

Thinking in BigData

匠人先生

随笔分类 - SQL

公告