spark

sparkStraming存储数据到mysql

摘要：重复存储问题修复阅读全文

posted @ 2017-03-13 17:30 sunyaxue 阅读(494) 评论(0) 推荐(0)

转：Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统

摘要：转自：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/ 生产者：消费者：阅读全文

posted @ 2017-03-13 15:00 sunyaxue 阅读(284) 评论(0) 推荐(0)

转： spark：scala读取mysql的4种方法

摘要：转自：http://blog.csdn.net/liuzongxi/article/details/51764104 Spark：Scala读取MySQL的4种方法 1. 引入mysql的驱动包到/usr/local/spark/spark-1.6.0-bin-hadoop2.6/lib/Hbase 阅读全文

posted @ 2017-03-09 17:04 sunyaxue 阅读(6191) 评论(0) 推荐(0)

sparkstreaming+kafka

摘要：生产者消费者阅读全文

posted @ 2017-02-14 17:47 sunyaxue 阅读(266) 评论(0) 推荐(0)

SparkSQL小例子

摘要：详情请看：http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/ 阅读全文

posted @ 2017-02-07 11:45 sunyaxue 阅读(505) 评论(0) 推荐(0)

spark小例子

摘要：var countData1 = src.map(line => (line.toLowerCase(),1)).reduceByKey(_+_).collect().foreach(println _) 阅读全文

posted @ 2017-02-05 21:05 sunyaxue 阅读(260) 评论(0) 推荐(0)

摘要：import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.catalyst.expressions.Second import javafx.scene.shape.Line import org.apache.spark.SparkConf impor... 阅读全文

posted @ 2017-02-05 15:41 sunyaxue 阅读(267) 评论(0) 推荐(0)

spark和hadoop差异

摘要：spark是从mapreduce发展过来的，拥有分布式并行计算的能力运行效率高： spark是把中间数据放到内存中，并且spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。而mapreduce的计算结果是保存在磁盘上的，这势必会影响整体速度。容错性高：阅读全文

posted @ 2017-02-05 11:09 sunyaxue 阅读(293) 评论(0) 推荐(0)

摘要：/* * spark算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。 * spark算子的作用： * 1.输入：在spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入scala集合或数据）输入spark， * 数据进入spark运行时数据空间，转化为s... 阅读全文

posted @ 2017-02-04 17:11 sunyaxue 阅读(180) 评论(0) 推荐(0)

随笔分类 - spark