随笔分类 - Spark
摘要:Spark SQL | 数据倾斜问题 问题: 数据倾斜,由于数据分区不均匀,某一task或一部分task承担数据量太大,导致整体任务卡死,或运行太长时间没有结果,一半在大表join中出现,具体可能有一下,group by维度过小 如几十亿数据分组维度只有几个值;空值过多某列数据不好,null或者空值
阅读全文
摘要:Spark 安装部署 | 集群安装(yarn作为资源调度) 解压缩spark-3.0.0-bin-hadoop3.2.tgz tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module mv spark-3.0.0-bi
阅读全文