2020 年 4月 3 日随笔档案 - 山上有风景

2020年4月3日

摘要： https://www.cnblogs.com/ssyfj/p/12615298.html 转载自：https://www.cnblogs.com/qingyunzong/p/8954552.html 一：概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘阅读全文

posted @ 2020-04-03 23:21 山上有风景阅读(219) 评论(0) 推荐(0) 编辑

SparkCore的调优之数据倾斜调优

摘要：转载自：https://www.cnblogs.com/qingyunzong/p/8946679.html 一：数据倾斜（一）数据倾斜调优了解有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型阅读全文

posted @ 2020-04-03 22:05 山上有风景阅读(292) 评论(0) 推荐(0) 编辑

SparkCore的调优之开发调优

摘要：转载自：https://www.cnblogs.com/qingyunzong/p/8946637.html 一：避免创建重复的RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一阅读全文

posted @ 2020-04-03 16:25 山上有风景阅读(212) 评论(0) 推荐(0) 编辑

SparkStreaming工作原理

摘要：一：SparkCore,SparkSQL和SparkStreaming的类似之处（一）SparkCore Spark Core主要是作为离线批处理（Batch Processing），每次处理的数据都是一个固定的数据集，而不是变化的相关概念: RDD：弹性分布式数据集Spark Context：阅读全文

posted @ 2020-04-03 10:27 山上有风景阅读(3293) 评论(0) 推荐(2) 编辑

SparkSQL自定义函数

摘要：一：自定义函数分类在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： 1.UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等2.UDAF（User- Defined Aggregation Funcation），阅读全文

posted @ 2020-04-03 09:27 山上有风景阅读(1806) 评论(0) 推荐(0) 编辑

山上有风景

周围的人都比你厉害，你才会慢慢变强

公告