随笔分类 - Spark Streaming概念学习系列
1) 流计算框架Spark Streaming
2) 将流数据按指定时间片累积为RDD
摘要:SparkStreaming性能调优 合理的并行度 减少批处理所消耗时间的常见方式还有提高并行度。有以下三种方式可以提高并行度: 1.增加接收器数目 有时如果记录太多导致单台机器来不及读入并分发的话,接收器会成为系统瓶颈。这时你就需要通过创建多个输入DStream(这样会创建多个接收器)来增加接收器
阅读全文
摘要:Spark Streaming容错 检查点机制-checkpoint 什么是检查点机制? Spark Streaming 周期性地把应用数据存储到诸如HDFS 或Amazon S3 这样的可靠存储系统中以供恢复时使用的机制叫做检查点机制 检查点机制的作用 控制发生失败时需要重算的状态数 Spark
阅读全文
摘要:不多说,直接上干货! SparkStreaming的高层抽象DStream 为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流。 DStream 是一个持续的RDD 序列。 可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新
阅读全文
摘要:SparkStreaming运行原理 Spark Streaming不断的从数据源获取数据(连续的数据流),并将这些数据按照周期划分为batch。 Spark Streaming将每个batch的数据交给Spark Engine来处理(每个batch的处理实际上还是批处理,只不过批量很小,计算速度很
阅读全文
摘要:不多说,直接上干货! Spark Streaming的竞争对手 Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个
阅读全文
摘要:为了更好地理解Spark Streaming 子框架的处理机制,必须得要自己弄清楚这些最基本概念。 1、离散流(Discretized Stream,DStream):这是Spark Streaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spark Streaming中对
阅读全文
摘要:Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。 其中包括:资源管理框架,Apache YARN、Apache Mesos;基于内存的分布式文件系统,Tachyon;随后是Spark,更上面则是实现各种功能的系统,比如机器学习MLli
阅读全文