摘要: spark streaming介绍 Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、witter、 ZeroMQ、Kinesis等源获取数据,也可以通过由 高阶函数map、reduce、j 阅读全文
posted @ 2018-08-21 17:20 喜中5000万 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 一、大数据的四大特征: a.海量的数据规模(volume) b.快速的数据流转和动态的数据体系(velocity) c.多样的数据类型(variety) d.巨大的数据价值(value) 二.Spark 和 Hadoop的不同 Spark是给予map reduce 算法实现的分布式计算,拥有Hado 阅读全文
posted @ 2018-08-21 16:43 喜中5000万 阅读(5815) 评论(0) 推荐(0) 编辑
摘要: package cn.itcast.spark.czhimport org.apache.spark.{SparkConf, SparkContext}object TestFun { def main(args: Array[String]): Unit = { val conf = new Sp 阅读全文
posted @ 2018-08-21 16:24 喜中5000万 阅读(467) 评论(0) 推荐(0) 编辑