Fork me on GitHub

随笔分类 -  Spark汇总

摘要:一、前述 Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-master模式。 二、具体 1、Standalone-client提交任务方式 提交命令 ./spark-submit --master spark://node01 阅读全文
posted @ 2018-02-04 18:52 L先生AI课堂 阅读(658) 评论(0) 推荐(0) 编辑
摘要:一、前述 Action类算子也是一类算子(函数)叫做行动算子,如foreach,collect,count等。Transformations类算子是延迟执行,Action类算子是触发执行。一个application应用程序(就是我们编写的一个应用程序)中有几个Action类算子执行,就有几个job运 阅读全文
posted @ 2018-02-02 00:32 L先生AI课堂 阅读(10279) 评论(0) 推荐(0) 编辑
摘要:一、前述 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类 阅读全文
posted @ 2018-02-02 00:13 L先生AI课堂 阅读(2128) 评论(0) 推荐(0) 编辑
摘要:一、前述 Spark中默认有两大类算子,Transformation(转换算子),懒执行。action算子,立即执行,有一个action算子 ,就有一个job。 通俗些来说由RDD变成RDD就是Transformation算子,由RDD转换成其他的格式就是Action算子。 二、常用Transfor 阅读全文
posted @ 2018-02-01 21:21 L先生AI课堂 阅读(928) 评论(0) 推荐(0) 编辑
摘要:一、前述 Spark是基于内存的计算框架,性能要优于Mapreduce,可以实现hadoop生态圈中的多个组件,是一个非常优秀的大数据框架,是Apache的顶级项目。One stack rule them all 霸气。 但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要 阅读全文
posted @ 2018-02-01 20:32 L先生AI课堂 阅读(563) 评论(0) 推荐(0) 编辑
摘要:一。概念 二。代码 三。解释 第一个函数作用于每一个组的第一个元素上,将其变为初始值 第二个函数:一开始a是初始值,b是分组内的元素值,比如A[1_],因为没有b值所以不能调用combine函数,第二组因为函数内元素值是[2_,3]调用combine函数后为2_@3,以此类推 第三个函数:reduc 阅读全文
posted @ 2018-01-07 00:01 L先生AI课堂 阅读(4780) 评论(0) 推荐(0) 编辑
摘要:一。基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑 每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑 阅读全文
posted @ 2018-01-06 23:00 L先生AI课堂 阅读(8437) 评论(1) 推荐(1) 编辑
摘要:今天分享一篇从0到1搭建Spark集群的步骤,企业中大家亦可以参照次集群搭建自己的Spark集群。 一。下载Spark安装包 可以从官网下载,本集群选择的版本是spark-1.6.0-bin-hadoop2.6 在官网中找到对应的链接即可http://spark.apache.org/downloa 阅读全文
posted @ 2017-12-16 01:27 L先生AI课堂 阅读(3008) 评论(0) 推荐(0) 编辑