摘要: 在该语句之前加上repartition(1),即写作以下形式:rdd.repartition(1).saveAsTextFile("out.txt")即,之前每个partition保存成一个txt文件,现repartition成一个分区,然后再保存。注意(未验证):这个操作对于大文件来说,repar... 阅读全文
posted @ 2015-07-09 10:21 gOOner黑骑士 阅读(7882) 评论(0) 推荐(0) 编辑
摘要: 注:1. 编译Spark之前,需要搭建Java和Scala环境,参见http://www.cnblogs.com/kevingu/p/4418779.html。 2. Spark之前使用sbt进行编译,现在建议使用maven并兼容sbt,但会逐步淘汰sbt编译方式。本文使用Maven工具编译Spar... 阅读全文
posted @ 2015-04-13 11:02 gOOner黑骑士 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 一、安装JDK注:Scala运行在JVM之上,需要安装JDK作为前提,并选择版本为1.7.*,与Scala 2.10.*版本兼容性较好1. 下载:从http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-18802... 阅读全文
posted @ 2015-04-11 23:47 gOOner黑骑士 阅读(1001) 评论(0) 推荐(0) 编辑