摘要: SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。➢ 计算流程➢ 容错性➢ 实 阅读全文
posted @ 2019-08-21 16:11 DiYong 阅读(169) 评论(0) 推荐(0) 编辑
摘要: Storm与SparkStreaming对比 阅读全文
posted @ 2019-08-21 16:06 DiYong 阅读(258) 评论(0) 推荐(0) 编辑
摘要: DStream(Discretized Stream)离散流 ◆ 和Spark基于RDD的概念很相似,Spark Streaming使用离散流 (discretized stream)作为抽象表示,叫做DStream。 ◆ DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收 到的数 阅读全文
posted @ 2019-08-21 16:00 DiYong 阅读(501) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 ◆ 支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、red 阅读全文
posted @ 2019-08-21 15:41 DiYong 阅读(176) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming支持的业务场景 初识流计算例子 阅读全文
posted @ 2019-08-21 13:56 DiYong 阅读(590) 评论(0) 推荐(0) 编辑