摘要: Spark读入本地文件后,成为MapPartitionsRDD,可以使用zipWithIndex,转换成ZippedWithIndexRDD:查看结果,每一行变为二元组“(内容,索引)”,索引从0开始:(# Apache Spark,0)("",1)(Spark is a fast and gene... 阅读全文
posted @ 2015-07-09 15:52 gOOner黑骑士 阅读(1656) 评论(0) 推荐(1) 编辑
摘要: cat命令:cat file1.txt file2.txt > file.txt或者:cat file1.txt file2.txt >> file.txt单个>与双>>的区别:>:单>表示新建文件,如果此文件有的话,则覆盖;>>:双>>表示追加内容,可以将第二个文件追加到第一个文件后面,也就是合并... 阅读全文
posted @ 2015-07-09 10:34 gOOner黑骑士 阅读(860) 评论(0) 推荐(0) 编辑
摘要: 在该语句之前加上repartition(1),即写作以下形式:rdd.repartition(1).saveAsTextFile("out.txt")即,之前每个partition保存成一个txt文件,现repartition成一个分区,然后再保存。注意(未验证):这个操作对于大文件来说,repar... 阅读全文
posted @ 2015-07-09 10:21 gOOner黑骑士 阅读(7882) 评论(0) 推荐(0) 编辑