摘要:
SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。➢ 计算流程➢ 容错性➢ 实 阅读全文
摘要:
Storm与SparkStreaming对比 阅读全文
摘要:
DStream(Discretized Stream)离散流 ◆ 和Spark基于RDD的概念很相似,Spark Streaming使用离散流 (discretized stream)作为抽象表示,叫做DStream。 ◆ DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收 到的数 阅读全文
摘要:
Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 ◆ 支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、red 阅读全文
摘要:
SparkStreaming支持的业务场景
初识流计算例子 阅读全文