摘要: 1) spark中只有特定的算子会触发shuffle,shuffle会在不同的分区间重新分配数据! 如果出现了shuffle,会造成需要跨机器和executor传输数据,这样会导致 低效和额外的资源消耗! 2) 和Hadoop的shuffle不同的时,数据分到哪些区是确定的,但是在区内的顺序不一定有 阅读全文
posted @ 2020-12-21 17:12 大葱拌豆腐 阅读(1056) 评论(0) 推荐(0) 编辑
摘要: with...as...也叫做子查询部分,语句允许hive定义一个sql片段,供整个sql使用 简介 with...as...需要定义一个sql片段,会将这个片段产生的结果集保存在内存中, 后续的sql均可以访问这个结果集,作用与视图或临时表类似. 语法限制 with...as...必须和其他sql 阅读全文
posted @ 2020-12-21 14:12 大葱拌豆腐 阅读(5433) 评论(0) 推荐(0) 编辑