2017年2月5日

spark小例子

摘要: var countData1 = src.map(line => (line.toLowerCase(),1)).reduceByKey(_+_).collect().foreach(println _) 阅读全文

posted @ 2017-02-05 21:05 sunyaxue 阅读(237) 评论(0) 推荐(0) 编辑

spark 分析作者发布文章的总阅读量

摘要: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.catalyst.expressions.Second import javafx.scene.shape.Line import org.apache.spark.SparkConf impor... 阅读全文

posted @ 2017-02-05 15:41 sunyaxue 阅读(238) 评论(0) 推荐(0) 编辑

spark和hadoop差异

摘要: spark是从mapreduce发展过来的,拥有分布式并行计算的能力 运行效率高: spark是把中间数据放到内存中,并且spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 而mapreduce的计算结果是保存在磁盘上的,这势必会影响整体速度。 容错性高: 阅读全文

posted @ 2017-02-05 11:09 sunyaxue 阅读(281) 评论(0) 推荐(0) 编辑

导航