07 2019 档案

摘要:SQL join 用于把来自两个或多个表的行结合起来。 下图展示了 LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN 相关的 7 种用法。 阅读全文
posted @ 2019-07-29 08:51 sw_kong 阅读(118) 评论(0) 推荐(0) 编辑
摘要:官网链接: http://spark.apache.org/docs/latest/job-scheduling.html 主要介绍: 1 application级调度方式 2 单个application内job的调度方式 阅读全文
posted @ 2019-07-29 08:48 sw_kong 阅读(317) 评论(0) 推荐(0) 编辑
摘要:1 背景 本文介绍的 Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点 执行计划可动态调整 调整的依据是中间结果的精确统计信息 2 动态设置 Shuffle Partition 2.1 Spark Shuffle 原理 如上图所示, 阅读全文
posted @ 2019-07-27 11:15 sw_kong 阅读(1669) 评论(1) 推荐(0) 编辑
摘要:导入数据到Hive 导出数据到PG库 sqoop到导入数据到PG库时,会通过select * from table 来确定表是否存在,如果不存在则抛出错误。 阅读全文
posted @ 2019-07-09 13:37 sw_kong 阅读(3013) 评论(0) 推荐(0) 编辑