摘要: https://www.cnblogs.com/ssyfj/p/12615298.html 转载自:https://www.cnblogs.com/qingyunzong/p/8954552.html 一:概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘 阅读全文
posted @ 2020-04-03 23:21 山上有风景 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://www.cnblogs.com/qingyunzong/p/8946679.html 一:数据倾斜 (一)数据倾斜调优了解 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型 阅读全文
posted @ 2020-04-03 22:05 山上有风景 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://www.cnblogs.com/qingyunzong/p/8946637.html 一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD; 接着对这个RDD执行某个算子操作,然后得到下一 阅读全文
posted @ 2020-04-03 16:25 山上有风景 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 一:SparkCore,SparkSQL和SparkStreaming的类似之处 (一)SparkCore Spark Core主要是作为离线批处理(Batch Processing),每次处理的数据都是一个固定的数据集,而不是变化的 相关概念: RDD:弹性分布式数据集Spark Context: 阅读全文
posted @ 2020-04-03 10:27 山上有风景 阅读(3293) 评论(0) 推荐(2) 编辑
摘要: 一:自定义函数分类 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: 1.UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等2.UDAF(User- Defined Aggregation Funcation), 阅读全文
posted @ 2020-04-03 09:27 山上有风景 阅读(1806) 评论(0) 推荐(0) 编辑