随笔分类 -  spark

sparkStraming存储数据到mysql
摘要:重复存储问题修复 阅读全文

posted @ 2017-03-13 17:30 sunyaxue 阅读(494) 评论(0) 推荐(0)

转:Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
摘要:转自:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/ 生产者: 消费者: 阅读全文

posted @ 2017-03-13 15:00 sunyaxue 阅读(284) 评论(0) 推荐(0)

转: spark:scala读取mysql的4种方法
摘要:转自:http://blog.csdn.net/liuzongxi/article/details/51764104 Spark:Scala读取MySQL的4种方法 1. 引入mysql的驱动包到/usr/local/spark/spark-1.6.0-bin-hadoop2.6/lib/Hbase 阅读全文

posted @ 2017-03-09 17:04 sunyaxue 阅读(6191) 评论(0) 推荐(0)

sparkstreaming+kafka
摘要:生产者 消费者 阅读全文

posted @ 2017-02-14 17:47 sunyaxue 阅读(266) 评论(0) 推荐(0)

SparkSQL小例子
摘要:详情请看:http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/ 阅读全文

posted @ 2017-02-07 11:45 sunyaxue 阅读(505) 评论(0) 推荐(0)

spark小例子
摘要:var countData1 = src.map(line => (line.toLowerCase(),1)).reduceByKey(_+_).collect().foreach(println _) 阅读全文

posted @ 2017-02-05 21:05 sunyaxue 阅读(260) 评论(0) 推荐(0)

spark 分析作者发布文章的总阅读量
摘要:import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.catalyst.expressions.Second import javafx.scene.shape.Line import org.apache.spark.SparkConf impor... 阅读全文

posted @ 2017-02-05 15:41 sunyaxue 阅读(267) 评论(0) 推荐(0)

spark和hadoop差异
摘要:spark是从mapreduce发展过来的,拥有分布式并行计算的能力 运行效率高: spark是把中间数据放到内存中,并且spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 而mapreduce的计算结果是保存在磁盘上的,这势必会影响整体速度。 容错性高: 阅读全文

posted @ 2017-02-05 11:09 sunyaxue 阅读(293) 评论(0) 推荐(0)

spark
摘要:/* * spark算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 * spark算子的作用: * 1.输入:在spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入scala集合或数据)输入spark, * 数据进入spark运行时数据空间,转化为s... 阅读全文

posted @ 2017-02-04 17:11 sunyaxue 阅读(180) 评论(0) 推荐(0)

导航