随笔分类 - Spark汇总
摘要:一、前述 Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-master模式。 二、具体 1、Standalone-client提交任务方式 提交命令 ./spark-submit --master spark://node01
阅读全文
摘要:一、前述 Action类算子也是一类算子(函数)叫做行动算子,如foreach,collect,count等。Transformations类算子是延迟执行,Action类算子是触发执行。一个application应用程序(就是我们编写的一个应用程序)中有几个Action类算子执行,就有几个job运
阅读全文
摘要:一、前述 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类
阅读全文
摘要:一、前述 Spark中默认有两大类算子,Transformation(转换算子),懒执行。action算子,立即执行,有一个action算子 ,就有一个job。 通俗些来说由RDD变成RDD就是Transformation算子,由RDD转换成其他的格式就是Action算子。 二、常用Transfor
阅读全文
摘要:一、前述 Spark是基于内存的计算框架,性能要优于Mapreduce,可以实现hadoop生态圈中的多个组件,是一个非常优秀的大数据框架,是Apache的顶级项目。One stack rule them all 霸气。 但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要
阅读全文
摘要:一。概念 二。代码 三。解释 第一个函数作用于每一个组的第一个元素上,将其变为初始值 第二个函数:一开始a是初始值,b是分组内的元素值,比如A[1_],因为没有b值所以不能调用combine函数,第二组因为函数内元素值是[2_,3]调用combine函数后为2_@3,以此类推 第三个函数:reduc
阅读全文
摘要:一。基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑 每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑
阅读全文
摘要:今天分享一篇从0到1搭建Spark集群的步骤,企业中大家亦可以参照次集群搭建自己的Spark集群。 一。下载Spark安装包 可以从官网下载,本集群选择的版本是spark-1.6.0-bin-hadoop2.6 在官网中找到对应的链接即可http://spark.apache.org/downloa
阅读全文