kpsmile

2019年3月3日

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8973707.html 一、概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要阅读全文

posted @ 2019-03-03 15:52 kpsmile 阅读(212) 评论(0) 推荐(0) 编辑

spark记录（9）SparkCore的调优之Spark内存模型

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8946637.html 一、概述 Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能阅读全文

posted @ 2019-03-03 15:49 kpsmile 阅读(390) 评论(0) 推荐(0) 编辑

spark记录（8）SparkCore的调优之Shuffle调优

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8946637.html 一、概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffl 阅读全文

posted @ 2019-03-03 15:42 kpsmile 阅读(161) 评论(0) 推荐(0) 编辑

spark记录（7）SparkCore的调优之数据倾斜调优

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8946637.html 数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题阅读全文

posted @ 2019-03-03 15:39 kpsmile 阅读(211) 评论(0) 推荐(0) 编辑

spark记录（6）SparkCore的调优之开发调优

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8946637.html 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型阅读全文

posted @ 2019-03-03 15:35 kpsmile 阅读(266) 评论(0) 推荐(0) 编辑

spark记录（5）Spark运行流程及在不同集群中的运行过程

摘要：摘自：https://www.cnblogs.com/qingyunzong/p/8945933.html 一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与Cluste 阅读全文

posted @ 2019-03-03 15:19 kpsmile 阅读(825) 评论(0) 推荐(0) 编辑

2019年2月26日

spark记录（4）spark算子之Action

摘要： Action类算子也是一类算子（函数）叫做行动算子，如foreach,collect，count等。Transformations类算子是延迟执行，Action类算子是触发执行。一个application应用程序中有几个Action类算子执行，就有几个job运行。（1）reduce reduce其阅读全文

posted @ 2019-02-26 21:56 kpsmile 阅读(492) 评论(0) 推荐(0) 编辑

2019年2月25日

Spark常用算子详解

摘要： Spark的算子的分类从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。 Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要阅读全文

posted @ 2019-02-25 22:38 kpsmile 阅读(17529) 评论(1) 推荐(1) 编辑

2019年2月24日

spark记录（3）spark算子之Transformation

摘要：一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1　map map十分容易理解，他是将源JavaRDD的一个一个元素的传入call方法，并经过算法后一个一个的返回从而生成一个新的JavaRDD。（1）　使用Java进行编写（2）　使用sca 阅读全文

posted @ 2019-02-24 23:32 kpsmile 阅读(709) 评论(0) 推荐(0) 编辑

spark记录（2）spark广播变量与累加器

摘要：转自：https://www.cnblogs.com/qingyunzong/p/8890483.html 一、概述在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每阅读全文

posted @ 2019-02-24 17:05 kpsmile 阅读(504) 评论(0) 推荐(0) 编辑

Update...

公告