Spark 源码解读 - 随笔分类 - 大数据和AI躺过的坑

对于maven创建spark项目的pom.xml配置文件（图文详解）

摘要：不多说，直接上干货！这里，怎么创建，见 Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐) 这里，我重点说下spark项目，因为，对于hadoop这样的，我已经写了大量博客了。比如，我目前用得较多的s 阅读全文

posted @ 2017-08-28 22:00 大数据和AI躺过的坑阅读(7186) 评论(0) 推荐(0)

简单入门构建spark1.6.1源码环境

摘要：能有源码的辅助，加上自身的修炼，能起到很好的作用！对于初学者，不建议，一上来看源码。下载 http://archive.apache.org/dist/spark/spark-1.6.1/ 阅读全文

posted @ 2016-12-03 09:26 大数据和AI躺过的坑阅读(579) 评论(0) 推荐(0)

RDD.scala（源码）

摘要：map、 flatMap、fliter、distinct、repartition、coalesce、sample、randomSplit、randomSampleWithRange、takeSample、union、++、sortBy、intersection map源码 fliter源码 coal 阅读全文

posted @ 2016-09-27 12:02 大数据和AI躺过的坑阅读(2525) 评论(0) 推荐(0)

作业提交过程分析（源码）

摘要：sc.textFile("README.md").flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_ + _).collect sc.textFile("README.md").flatMap(line => li 阅读全文

posted @ 2016-09-25 16:28 大数据和AI躺过的坑阅读(524) 评论(0) 推荐(0)

Spark Repl过程分析（源码）

摘要：阅读全文

posted @ 2016-09-25 12:05 大数据和AI躺过的坑阅读(446) 评论(0) 推荐(0)

SparkContext的初始化过程分析（源码）

摘要：SparkContext的构造函数中，最重要的入参是SparkConf 根据初始化入参生成SparkConf 再根据SparkConf来创建SparkEnv TaskScheduler.start的目的，是启动相应的SchedulerBackend，并启动定时器进行检测。总结阅读全文

posted @ 2016-09-25 11:58 大数据和AI躺过的坑阅读(424) 评论(0) 推荐(0)

从Spark-Shell到SparkContext的函数调用路径过程分析（源码）

摘要：不急，循序渐进，先打好基础 Spark shell的原理首先，我们清晰定位找到这几个。 1、spark-shell 2、 spark-submit 3、spark-class 4、SparkSubmit.scala 5、SparkILoop.scala createSparkContext的源码阅读全文

posted @ 2016-09-25 11:13 大数据和AI躺过的坑阅读(1489) 评论(0) 推荐(0)

Spark源码的编译过程详细解读(各版本)（博主推荐）

摘要：不多说，直接上干货！说在前面的话重新试多几次。编译过程中会出现下载某个包的时间太久，这是由于连接网站的过程中会出现假死，按ctrl+c，重新运行编译命令。如果出现缺少了某个文件的情况，则要先清理maven(使用命令 mvn clean) 再重新编译。 Spark源码编译的3大方式 1、Mave 阅读全文

posted @ 2016-09-12 18:03 大数据和AI躺过的坑阅读(15129) 评论(1) 推荐(1)

大数据和人工智能躺过的坑

随笔分类 - Spark 源码解读

公告