SparkStreaming-DStream(Discretized Stream)
DStream(Discretized Stream)离散流
◆ 和Spark基于RDD的概念很相似,Spark Streaming使用离散流
(discretized stream)作为抽象表示,叫做DStream。
◆ DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收
到的数据都作为RDD存在,而DStream是有这些RDD所组成的序列。
获取DStream对象
可以从各种输入源创建,比如Socket、Flume、Kafka或者HDFS。
可以通过现有的Dstream的transformation操作来获得。
DStream支持的两种操作转化操作:
转化生成一个新的DStream。
输出操作:可以把数据写入外部系统中,比如HDFS ,DataBase等。
DStream提供了许多与RDD所支持的操作相类似的操作支持,还增加了与时间相关的新操作,比如滑动窗口
流程图