摘要: Executor原理剖析 Task原理剖析 Shuffle原理剖析 1、在Spark中,什么情况下,会发生shuffle?reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作。2、默认的Shuffle操作的原理剖析3、优化后的Shuf 阅读全文
posted @ 2019-08-14 21:31 Transkai 阅读(316) 评论(0) 推荐(0) 编辑
摘要: SparkContext原理 Master主备切换机制 Master注册机制 Worker原理 job触发流程原理 val lines = sc.textFile()val words = lines.flatMap(line => line.split(" "))val pairs = words 阅读全文
posted @ 2019-08-14 20:34 Transkai 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 一.Spark内核架构 1、Application2、spark-submit3、Driver4、SparkContext5、Master6、Worker7、Executor8、Job9、DAGScheduler10、TaskScheduler11、ShuffleMapTask and Result 阅读全文
posted @ 2019-08-14 15:33 Transkai 阅读(169) 评论(0) 推荐(0) 编辑
摘要: (1)基于排序机制的wordcount程序 对于以下文件 进行wordcount,并按照出现次数多少排序 代码如下: 结果如下: (2)二次排序 对于以下文件内容 1 52 43 61 32 1 要想得到以下结果 可以通过以下代码 (3)topn 1、对文本文件内的数字,取最大的前3个。 2、对每个 阅读全文
posted @ 2019-08-14 00:19 Transkai 阅读(574) 评论(0) 推荐(0) 编辑