Fork me on GitHub
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 17 下一页
摘要: 一、前述 Spark中资源调度是一个非常核心的模块,尤其对于我们提交参数来说,需要具体到某些配置,所以提交配置的参数于源码一一对应,掌握此节对于Spark在任务执行过程中的资源分配会更上一层楼。由于源码部分太多本节只抽取关键部分和结论阐述,更多的偏于应用。 二、具体细节 1、Spark-Submit 阅读全文
posted @ 2018-02-05 21:17 L先生AI课堂 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 一、前述 今天继续整理几个Transformation算子如下: mapPartitionWithIndex repartition coalesce groupByKey zip zipWithIndex 二、具体细节 mapPartitionWithIndex 类似于mapPartitions, 阅读全文
posted @ 2018-02-05 20:38 L先生AI课堂 阅读(774) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Spark的资源调度是个很重要的模块,只要搞懂原理,才能具体明白Spark是怎么执行的,所以尤其重要。 自愿申请的话,本文分粗粒度和细粒度模式分别介绍。 二、具体 Spark资源调度流程图: Spark资源调度和任务调度的流程: 1、启动集群后,Worker节点会向Master节点汇报资源 阅读全文
posted @ 2018-02-05 01:48 L先生AI课堂 阅读(729) 评论(0) 推荐(0) 编辑
摘要: 一、前述 RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。 Spark中的Stage其实就是一组并行的任务,任务是一个个的task 。 二、具体细节 窄依赖 父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partitio 阅读全文
posted @ 2018-02-05 01:28 L先生AI课堂 阅读(6152) 评论(0) 推荐(1) 编辑
摘要: 一、前述 Spark可以和Yarn整合,将Application提交到Yarn上运行,和StandAlone提交模式一样,Yarn也有两种提交任务的方式。 二、具体 1、yarn-client提交任务方式 配置 在client节点配置中spark-env.sh添加Hadoop_HOME的配置目录即可 阅读全文
posted @ 2018-02-04 21:18 L先生AI课堂 阅读(17103) 评论(1) 推荐(1) 编辑
摘要: 一、前述 Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-master模式。 二、具体 1、Standalone-client提交任务方式 提交命令 ./spark-submit --master spark://node01 阅读全文
posted @ 2018-02-04 18:52 L先生AI课堂 阅读(655) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Action类算子也是一类算子(函数)叫做行动算子,如foreach,collect,count等。Transformations类算子是延迟执行,Action类算子是触发执行。一个application应用程序(就是我们编写的一个应用程序)中有几个Action类算子执行,就有几个job运 阅读全文
posted @ 2018-02-02 00:32 L先生AI课堂 阅读(10269) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类 阅读全文
posted @ 2018-02-02 00:13 L先生AI课堂 阅读(2125) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Spark中默认有两大类算子,Transformation(转换算子),懒执行。action算子,立即执行,有一个action算子 ,就有一个job。 通俗些来说由RDD变成RDD就是Transformation算子,由RDD转换成其他的格式就是Action算子。 二、常用Transfor 阅读全文
posted @ 2018-02-01 21:21 L先生AI课堂 阅读(922) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Spark是基于内存的计算框架,性能要优于Mapreduce,可以实现hadoop生态圈中的多个组件,是一个非常优秀的大数据框架,是Apache的顶级项目。One stack rule them all 霸气。 但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要 阅读全文
posted @ 2018-02-01 20:32 L先生AI课堂 阅读(562) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 17 下一页