随笔分类 - Spark 源码解读
摘要:不多说,直接上干货! 这里,怎么创建,见 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主强烈推荐) 这里, 我重点说下spark项目,因为,对于hadoop这样的,我已经写了大量博客了。 比如,我目前用得较多的s
阅读全文
摘要:能有源码的辅助,加上自身的修炼,能起到很好的作用! 对于初学者,不建议,一上来看源码。 下载 http://archive.apache.org/dist/spark/spark-1.6.1/
阅读全文
摘要:map、 flatMap、fliter、distinct、repartition、coalesce、sample、randomSplit、randomSampleWithRange、takeSample、union、++、sortBy、intersection map源码 fliter源码 coal
阅读全文
摘要:sc.textFile("README.md").flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_ + _).collect sc.textFile("README.md").flatMap(line => li
阅读全文
摘要:SparkContext的构造函数中,最重要的入参是SparkConf 根据初始化入参生成SparkConf 再根据SparkConf来创建SparkEnv TaskScheduler.start的目的,是启动相应的SchedulerBackend,并启动定时器进行检测。 总结
阅读全文
摘要:不急,循序渐进,先打好基础 Spark shell的原理 首先,我们清晰定位找到这几个。 1、spark-shell 2、 spark-submit 3、spark-class 4、SparkSubmit.scala 5、SparkILoop.scala createSparkContext的源码
阅读全文
摘要:不多说,直接上干货! 说在前面的话 重新试多几次。编译过程中会出现下载某个包的时间太久,这是由于连接网站的过程中会出现假死,按ctrl+c,重新运行编译命令。 如果出现缺少了某个文件的情况,则要先清理maven(使用命令 mvn clean) 再重新编译。 Spark源码编译的3大方式 1、Mave
阅读全文