2015 年 1月 23 日随笔档案 - stark_summer

2015年1月23日

Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序

摘要：从前一篇文章中的wordcount的输出结果可以看出来结果是未经排序的，如何对spark的输出结果进行排序呢？先对reduceByKey的结果进行key,value位置置换（数字，字符），然后再进行数字排序，再将key，value位置置换后就是排序后的结果了，最终将结果存储到HDFS中可以发现我们成... 阅读全文

posted @ 2015-01-23 16:27 stark_summer 阅读(132) 评论(0) 推荐(0) 编辑

Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count

摘要：操作HDFS：先要保证HDFS启动了：启动spark集群：以spark-shell运行在spark集群上：查看下之前上传到HDFS上的”LICENSE.txt“文件：用spark读取这个文件：使用count统计该文件的行数：我们可以看到count 耗时为0.239708s对该RDD进行cache操作... 阅读全文

posted @ 2015-01-23 10:06 stark_summer 阅读(225) 评论(0) 推荐(0) 编辑

stark_summer

公告