2017 年 2月 5 日随笔档案 - sunyaxue

spark小例子

摘要： var countData1 = src.map(line => (line.toLowerCase(),1)).reduceByKey(_+_).collect().foreach(println _) 阅读全文

posted @ 2017-02-05 21:05 sunyaxue 阅读(237) 评论(0) 推荐(0) 编辑

摘要： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.catalyst.expressions.Second import javafx.scene.shape.Line import org.apache.spark.SparkConf impor... 阅读全文

posted @ 2017-02-05 15:41 sunyaxue 阅读(238) 评论(0) 推荐(0) 编辑

spark和hadoop差异

摘要： spark是从mapreduce发展过来的，拥有分布式并行计算的能力运行效率高： spark是把中间数据放到内存中，并且spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。而mapreduce的计算结果是保存在磁盘上的，这势必会影响整体速度。容错性高：阅读全文

posted @ 2017-02-05 11:09 sunyaxue 阅读(281) 评论(0) 推荐(0) 编辑

伊米伊念

spark小例子

spark 分析作者发布文章的总阅读量

spark和hadoop差异

导航

公告