2017年5月14日

摘要: Overview 整个项目的整体架构如下: 关于SparkStreaming的部分: Flume传数据到SparkStreaming:为了简单使用的是push-based的方式。这种方式可能会丢失数据,但是简单。 SparkStreaming因为micro-batch的架构,跟我们这个实时热点的应用 阅读全文
posted @ 2017-05-14 15:47 橘子不是唯一的水果 阅读(974) 评论(0) 推荐(0) 编辑
 
摘要: Overview Spark Streaming为用户提供了一套与batch jobs十分相似的API,以编写streaming应用 与Spark的基本概念RDDs类似,Spark Streaming提供了被称为DStreams/discretized streams的抽象。 DStream is 阅读全文
posted @ 2017-05-14 12:06 橘子不是唯一的水果 阅读(536) 评论(0) 推荐(0) 编辑
 
摘要: Overview 这一部分我们主要讨论如果配置一个Spark application,如何tune and debug Spark workloads 配置对Spark应用性能调优很重要。我们有必要理解一个Spark应用的性能。 Configuring Spark with SparkConf 我们 阅读全文
posted @ 2017-05-14 09:46 橘子不是唯一的水果 阅读(249) 评论(0) 推荐(0) 编辑
 
摘要: TBD... 阅读全文
posted @ 2017-05-14 09:46 橘子不是唯一的水果 阅读(118) 评论(0) 推荐(0) 编辑
 
摘要: Introduction 之前学习的时候都是通过使用spark-shell或者是在local模式运行spark 这边我们首先介绍Spark分布式应用的架构,然后讨论在分布式clusters中运行Spark的options(Spark可以运行在多种cluster managers之上:Hadoop Y 阅读全文
posted @ 2017-05-14 09:45 橘子不是唯一的水果 阅读(248) 评论(0) 推荐(0) 编辑