打赏

Spark Streaming概念学习系列之SparkStreaming的高层抽象DStream

 

 

  不多说,直接上干货!

 

 

SparkStreaming的高层抽象DStream

 

 

    

  为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流。

  DStream 是一个持续的RDD 序列。

  可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新DStream。

 

 

 

Dstream与RDD的关系

        

      

 

  DStream 是一个持续的RDD 序列。

  对Dstream的转换操作最终会映射到内部随时间不断生成的RDD上。

 

 

Batch duration

    

  Spark Streaming按照设定的batch duration来累积数据,周期结束时把周期内的数据作为一个RDD,并提交任务给Spark Engine。

  batch duration的大小决定了Spark Streaming提交作业的频率和处理延迟。

  batch duration的大小设定取决于用户的需求,一般不会太大。

posted @ 2017-06-05 15:10  大数据和AI躺过的坑  阅读(561)  评论(0编辑  收藏  举报