会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
ArancioneRagazza
2017年5月14日
SparkStreaming实时日志分析--实时热搜词
摘要: Overview 整个项目的整体架构如下: 关于SparkStreaming的部分: Flume传数据到SparkStreaming:为了简单使用的是push-based的方式。这种方式可能会丢失数据,但是简单。 SparkStreaming因为micro-batch的架构,跟我们这个实时热点的应用
阅读全文
posted @ 2017-05-14 15:47 橘子不是唯一的水果
阅读(974)
评论(0)
推荐(0)
编辑
<Spark><Spark Streaming>
摘要: Overview Spark Streaming为用户提供了一套与batch jobs十分相似的API,以编写streaming应用 与Spark的基本概念RDDs类似,Spark Streaming提供了被称为DStreams/discretized streams的抽象。 DStream is
阅读全文
posted @ 2017-05-14 12:06 橘子不是唯一的水果
阅读(536)
评论(0)
推荐(0)
编辑
<Spark><Tuning and Debugging>
摘要: Overview 这一部分我们主要讨论如果配置一个Spark application,如何tune and debug Spark workloads 配置对Spark应用性能调优很重要。我们有必要理解一个Spark应用的性能。 Configuring Spark with SparkConf 我们
阅读全文
posted @ 2017-05-14 09:46 橘子不是唯一的水果
阅读(249)
评论(0)
推荐(0)
编辑
<Spark><Spark SQL>
摘要: TBD...
阅读全文
posted @ 2017-05-14 09:46 橘子不是唯一的水果
阅读(118)
评论(0)
推荐(0)
编辑
<Spark><Running on a Cluster>
摘要: Introduction 之前学习的时候都是通过使用spark-shell或者是在local模式运行spark 这边我们首先介绍Spark分布式应用的架构,然后讨论在分布式clusters中运行Spark的options(Spark可以运行在多种cluster managers之上:Hadoop Y
阅读全文
posted @ 2017-05-14 09:45 橘子不是唯一的水果
阅读(248)
评论(0)
推荐(0)
编辑
公告
导航
博客园
首页
新随笔
新文章
联系
订阅
管理