05 2020 档案

摘要:shuffle 和 stage shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. RDD 的 Transformation 函数中,又分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.窄依赖跟宽依赖的区 阅读全文
posted @ 2020-05-26 17:19 静悟生慧 阅读(910) 评论(0) 推荐(0) 编辑
摘要:具体现象 内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core.几个SprakSQL任务就将整个系统资源吃光. 设置超过40个executor,但未指定分区数,导致多数executor空闲. 原因分析 SparkSQL配置时Core 阅读全文
posted @ 2020-05-22 15:50 静悟生慧 阅读(5476) 评论(1) 推荐(1) 编辑
摘要:Git global setup 【基本设置】 git config --global user.name "XXXXXXXX" git config --global user.email "XXXXXXXX" ...或在命令行上创建一个新的存储库【克隆到本地,然后添加README】 git cl 阅读全文
posted @ 2020-05-15 17:28 静悟生慧 阅读(276) 评论(0) 推荐(0) 编辑
摘要:使用hadoop job -list来列出当前hadoop正在执行的jobs 然后使用hadoop job -kill job_1546932571227_0082来杀死该job任务, 原文链接:https://blog.csdn.net/zhy_2117/java/article/details/ 阅读全文
posted @ 2020-05-07 18:33 静悟生慧 阅读(1380) 评论(0) 推荐(0) 编辑
摘要:hive中如何控制mapper的数量 参考文档:https://www.cnblogs.com/1130136248wlxk/articles/5352154.html 1. 决定map的数据的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在h 阅读全文
posted @ 2020-05-07 10:07 静悟生慧 阅读(3938) 评论(0) 推荐(0) 编辑
摘要:spark UI 界面:http://blog.csdn.net/u013013024/article/details/73498508几个概念的解释:http://blog.csdn.net/jiangwlee/article/details/50774561 数据倾斜处理: https://bl 阅读全文
posted @ 2020-05-06 14:38 静悟生慧 阅读(1200) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示