05 2020 档案

Spark：shuffle原理

摘要：shuffle 和 stage shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. RDD 的 Transformation 函数中,又分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.窄依赖跟宽依赖的区阅读全文

posted @ 2020-05-26 17:19 静悟生慧阅读(910) 评论(0) 推荐(0) 编辑

SparkSQL执行时参数优化

摘要：具体现象内存CPU比例失调一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core.几个SprakSQL任务就将整个系统资源吃光. 设置超过40个executor,但未指定分区数,导致多数executor空闲. 原因分析 SparkSQL配置时Core 阅读全文

posted @ 2020-05-22 15:50 静悟生慧阅读(5476) 评论(1) 推荐(1) 编辑

git 代码托管仓库操作

摘要：Git global setup 【基本设置】 git config --global user.name "XXXXXXXX" git config --global user.email "XXXXXXXX" ...或在命令行上创建一个新的存储库【克隆到本地，然后添加README】 git cl 阅读全文

posted @ 2020-05-15 17:28 静悟生慧阅读(276) 评论(0) 推荐(0) 编辑

KILL hive 执行中的job任务

摘要：使用hadoop job -list来列出当前hadoop正在执行的jobs 然后使用hadoop job -kill job_1546932571227_0082来杀死该job任务，原文链接：https://blog.csdn.net/zhy_2117/java/article/details/ 阅读全文

posted @ 2020-05-07 18:33 静悟生慧阅读(1380) 评论(0) 推荐(0) 编辑

hive 中map和reduce的数量

摘要：hive中如何控制mapper的数量参考文档：https://www.cnblogs.com/1130136248wlxk/articles/5352154.html 1. 决定map的数据的决定因素有: input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在h 阅读全文

posted @ 2020-05-07 10:07 静悟生慧阅读(3938) 评论(0) 推荐(0) 编辑

spark UI 界面解释及数据倾斜处理办法

摘要：spark UI 界面：http://blog.csdn.net/u013013024/article/details/73498508几个概念的解释：http://blog.csdn.net/jiangwlee/article/details/50774561 数据倾斜处理： https://bl 阅读全文

posted @ 2020-05-06 14:38 静悟生慧阅读(1200) 评论(0) 推荐(0) 编辑

公告

昵称：静悟生慧
园龄： 9年5个月
粉丝： 231
关注： 94

+加关注

2025年3月

日

一

二

三

四

五

六

静悟生慧

05 2020 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论