L先生AI课堂

2018年2月5日

摘要：一、前述 Spark中资源调度是一个非常核心的模块，尤其对于我们提交参数来说，需要具体到某些配置，所以提交配置的参数于源码一一对应，掌握此节对于Spark在任务执行过程中的资源分配会更上一层楼。由于源码部分太多本节只抽取关键部分和结论阐述，更多的偏于应用。二、具体细节 1、Spark-Submit 阅读全文

posted @ 2018-02-05 21:17 L先生AI课堂阅读(586) 评论(0) 推荐(0) 编辑

【Spark篇】---Spark中transformations算子二

摘要：一、前述今天继续整理几个Transformation算子如下： mapPartitionWithIndex repartition coalesce groupByKey zip zipWithIndex 二、具体细节 mapPartitionWithIndex 类似于mapPartitions, 阅读全文

posted @ 2018-02-05 20:38 L先生AI课堂阅读(775) 评论(0) 推荐(0) 编辑

【Spark篇】---Spark资源调度和任务调度

摘要：一、前述 Spark的资源调度是个很重要的模块，只要搞懂原理，才能具体明白Spark是怎么执行的，所以尤其重要。自愿申请的话，本文分粗粒度和细粒度模式分别介绍。二、具体 Spark资源调度流程图： Spark资源调度和任务调度的流程： 1、启动集群后，Worker节点会向Master节点汇报资源阅读全文

posted @ 2018-02-05 01:48 L先生AI课堂阅读(734) 评论(0) 推荐(0) 编辑

【Spark篇】--Spark中的宽窄依赖和Stage的划分

摘要：一、前述 RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。 Spark中的Stage其实就是一组并行的任务，任务是一个个的task 。二、具体细节窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partitio 阅读全文

posted @ 2018-02-05 01:28 L先生AI课堂阅读(6163) 评论(0) 推荐(1) 编辑

2018年2月4日

【Spark篇】---Spark中yarn模式两种提交任务方式

摘要：一、前述 Spark可以和Yarn整合，将Application提交到Yarn上运行，和StandAlone提交模式一样，Yarn也有两种提交任务的方式。二、具体 1、yarn-client提交任务方式配置在client节点配置中spark-env.sh添加Hadoop_HOME的配置目录即可阅读全文

posted @ 2018-02-04 21:18 L先生AI课堂阅读(17115) 评论(1) 推荐(1) 编辑

【Spark篇】--Spark中Standalone的两种提交模式

摘要：一、前述 Spark中Standalone有两种提交模式，一个是Standalone-client模式，一个是Standalone-master模式。二、具体 1、Standalone-client提交任务方式提交命令 ./spark-submit --master spark://node01 阅读全文

posted @ 2018-02-04 18:52 L先生AI课堂阅读(659) 评论(0) 推荐(0) 编辑

2018年2月2日

【Spark篇】---Spark中Action算子

摘要：一、前述 Action类算子也是一类算子（函数）叫做行动算子，如foreach,collect，count等。Transformations类算子是延迟执行，Action类算子是触发执行。一个application应用程序（就是我们编写的一个应用程序）中有几个Action类算子执行，就有几个job运阅读全文

posted @ 2018-02-02 00:32 L先生AI课堂阅读(10280) 评论(0) 推荐(0) 编辑

【Spark篇】---Spark中控制算子

摘要：一、前述 Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主要是为了对数据进行缓存。控制算子有三种，cache,persist,checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类阅读全文

posted @ 2018-02-02 00:13 L先生AI课堂阅读(2129) 评论(0) 推荐(0) 编辑

2018年2月1日

【Spark篇】---Spark中Transformations转换算子

摘要：一、前述 Spark中默认有两大类算子，Transformation（转换算子）,懒执行。action算子，立即执行，有一个action算子，就有一个job。通俗些来说由RDD变成RDD就是Transformation算子，由RDD转换成其他的格式就是Action算子。二、常用Transfor 阅读全文

posted @ 2018-02-01 21:21 L先生AI课堂阅读(928) 评论(0) 推荐(0) 编辑

【Spark篇】---Spark初始

摘要：一、前述 Spark是基于内存的计算框架，性能要优于Mapreduce，可以实现hadoop生态圈中的多个组件，是一个非常优秀的大数据框架，是Apache的顶级项目。One stack rule them all 霸气。但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要阅读全文

posted @ 2018-02-01 20:32 L先生AI课堂阅读(563) 评论(0) 推荐(0) 编辑

联想集团算法工程师一枚！ Get busy living, or get busy dying!!

公告