随笔分类 -  Spark

摘要:Spark SQL | 数据倾斜问题 问题: 数据倾斜,由于数据分区不均匀,某一task或一部分task承担数据量太大,导致整体任务卡死,或运行太长时间没有结果,一半在大表join中出现,具体可能有一下,group by维度过小 如几十亿数据分组维度只有几个值;空值过多某列数据不好,null或者空值 阅读全文
posted @ 2022-02-27 22:08 —清风碎心— 阅读(327) 评论(0) 推荐(0) 编辑
摘要:Spark 安装部署 | 集群安装(yarn作为资源调度) 解压缩spark-3.0.0-bin-hadoop3.2.tgz tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module mv spark-3.0.0-bi 阅读全文
posted @ 2021-10-29 00:21 —清风碎心— 阅读(80) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.