摘要:
网上查阅一些资料,收集整理如下: 1、 通用性 spark更加通用,spark提供了transformation和action这两大类的多个功能api,另外还有流式处理sparkstreaming模块、图计算GraphX等等;mapreduce只提供了map和reduce两种操作,流计算以及其他模块 阅读全文
摘要:
一、通用的load和save操作 对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFrame中的数据保存到文件中。 Java版 阅读全文
摘要:
创建DataFrame使用SQLContext,可以从RDD、Hive表或者其他数据源,来创建一个DataFrame。以下是一个使用JSON文件创建DataFrame的例子: Java版本:JavaSparkContext sc = ...; SQLContext sqlContext = new 阅读全文
摘要:
一、Spark SQL的特点 1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析 阅读全文
摘要:
DAGScheduler stage 划分算法 stage划分算法很重要,对于spark开发人员来说,必须对stage划分算法很清晰,知道自己编写的spark Application被划分成了几个job,每个job被划分成了几个stage,每个stage包括哪些代码,这样当发现哪个stage报错或者 阅读全文
摘要:
阅读全文
摘要:
1、主备切换机制原理剖析与源码分析 2、注册机制原理剖析与源码分析 3、状态改变处理机制源码分析 4、资源调度机制源码分析(schedule(),两种资源调度算法)(核心) 一、主备切换机制原理 1、Master主备切换机制:实际上指的就是,在Active Master挂掉之后,切换到Standby 阅读全文
摘要:
sparkContext初始化机制 要点: 1、TaskSchedular如何注册,application、Excutor 如何反向注册 TaskScheduleImpl 即 TaskSchedular, SparkDestroySchedularBackend底层接收TaskScheduleImp 阅读全文
摘要:
一、spark的三种提交模式 1、第一种,Spark内核架构,即standalone模式,基于Spark自己的Master-Worker集群。 2、第二种,基于YARN的yarn-cluster模式。 3、第三种,基于YARN的yarn-client模式。 如果,你要切换到第二种和第三种模式,在提交 阅读全文
摘要:
一、窄依赖(Narrow Dependency,) 即一个RDD,对它的父RDD,只有简单的一对一的依赖关系。也就是说, RDD的每个partition ,仅仅依赖于父RDD中的一个partition,父 RDD和子RDD的partition之间的对应关系,是一对一的!这种情况下,是简单的RDD之间 阅读全文